目录
一、完整代码
成功运行的代码(暂未加入爬取完整250条的循环,待更新)供参考:
'''
step1 数据获取_requests
用开发者工具F12调出页面源代码,观察所需要的数据储存位置
如果储存在http页面中(服务器加载数据),可直接抓取
如果储存在其它地方,用抓包工具
发送请求,获得text版源码
用print检查无误后,将text版源码赋值存入a
step2 用re提取所需信息_re
写好正则obj = re.compile('正则规则',re.S)
赋值result = obj.finditer('a')
用for in 循环抓取匹配正则的信息
用print检查无误后,将抓取字段赋值存入dic
step3 将数据写入csv
'''
# step1 数据获取
import requests
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': '马赛克我的信息'}
resp = requests.get(url,headers=headers)
content = resp.text # 先用print(resp.t