学习爬虫lesson3

最新推荐文章于 2024-07-14 20:20:34 发布

Tenyaa

最新推荐文章于 2024-07-14 20:20:34 发布

阅读量217

点赞数 1

分类专栏： python爬虫文章标签：爬虫 python 数据挖掘

本文链接：https://blog.csdn.net/qq_45789906/article/details/122524192

版权

python爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

今天学习了如何爬取豆瓣电影top250的数据

import requests  #通过requests相关功能获得页面源代码
import re   #通过re来提取页面中的有效信息
import csv #存数据到文件里

url = 'https://movie.douban.com/top250'
Headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.12151 SLBChan/12"
}
resp = requests.get(url,headers=Headers)
#print(resp.text) #可以先打印出来看一下源代码,什么都没有显示说明有反爬，要增加headers
page_content = resp.text
#加下来就要从这个页面中解析想要的数据
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?'
                 r'<p class="">.*?<br>(?P<year>.*?)&nbsp'
                 r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>',re.S)
#通过查看页面源代码写出正则表达式，需要获取的东西就再另外括起来，避免太长无关内容就.*?惰性匹配过掉
result = obj.finditer(page_content) #得到的结果放到result里
for it in result:
    print(it.group("name"))
    print(it.group("score"))
    print(it.group("year").strip()) #为了结果的输出看起来更美观

运行结果：
在这里插入图片描述

补充防止自己忘记，写正则化的时候查看页面源代码，找到页码中所需数据的位置，根据前后的标记写出正则化，比如此例中页面是这样：（黑色是要获得的数据，红色是关键前后标记）
在这里插入图片描述
为了能够把得到的数据方便后期处理，可以把数据放到一个文件中去

import requests  #通过requests相关功能获得页面源代码
import re   #通过re来提取页面中的有效信息
import csv #存数据到文件里

url = 'https://movie.douban.com/top250'
Headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.12151 SLBChan/12"
}
resp = requests.get(url,headers=Headers)
#print(resp.text) #可以先打印出来看一下源代码,什么都没有显示说明有反爬，要增加headers
page_content = resp.text
#加下来就要从这个页面中解析想要的数据
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?'
                 r'<p class="">.*?<br>(?P<year>.*?)&nbsp'
                 r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>',re.S)
#通过查看页面源代码写出正则表达式，需要获取的东西就再另外括起来，避免太长无关内容就.*?惰性匹配过掉
result = obj.finditer(page_content) #得到的结果放到result里
f = open("data.csv",mode="w",encoding="utf-8") #准备一个文件
csvwriter = csv.writer(f)
for it in result:
    '''
    print(it.group("name"))
    #print(it.group("score"))
    #print(it.group("year").strip()) #为了结果的输出看起来更美观
    '''
    dic = it.groupdict() #把name,score,year整理成字典的形式
    dic['year'] = dic['year'].strip() #为了美观还是把year部分单独处理
    csvwriter.writerow(dic.values())

f.close() #有关就有开

运行后就会有一个文件，look！
在这里插入图片描述

Tenyaa

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习爬虫lesson3

今天学习了如何爬取豆瓣电影top250的数据import requests #通过requests相关功能获得页面源代码import re #通过re来提取页面中的有效信息import csv #存数据到文件里url = 'https://movie.douban.com/top250'Headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
复制链接

扫一扫