Python爬取豆瓣排名报错参考——关键词：换行符|中文乱码|返回空值|正则问题

空条徐伦的自学

已于 2022-01-30 15:18:32 修改

阅读量1.4k

点赞数 1

文章标签： python 开发语言后端爬虫

于 2022-01-30 15:14:37 首次发布

本文链接：https://blog.csdn.net/m0_66400013/article/details/122752817

版权

一、完整代码成功运行的代码（暂未加入爬取完整250条的循环，待更新）供参考：'''step1 数据获取_requests 用开发者工具F12调出页面源代码，观察所需要的数据储存位置如果储存在http页面中（服务器加载数据），可直接抓取如果储存在其它地方，用抓包工具发送请求，获得text版源码用print检查无误后,将text版源码赋值存入astep2

摘要由CSDN通过智能技术生成

一、完整代码

成功运行的代码（暂未加入爬取完整250条的循环，待更新）供参考：

'''
step1  数据获取_requests
           用开发者工具F12调出页面源代码，观察所需要的数据储存位置
                如果储存在http页面中（服务器加载数据），可直接抓取
                如果储存在其它地方，用抓包工具
           发送请求，获得text版源码
           用print检查无误后,将text版源码赋值存入a

step2  用re提取所需信息_re
           写好正则obj = re.compile('正则规则',re.S)
           赋值result = obj.finditer('a')
           用for in 循环抓取匹配正则的信息
           用print检查无误后,将抓取字段赋值存入dic
            
step3  将数据写入csv  
'''


# step1 数据获取
import requests

url = 'https://movie.douban.com/top250'
headers = {'User-Agent': '马赛克我的信息'}
resp = requests.get(url,headers=headers)
content = resp.text                     # 先用print(resp.t

最低0.47元/天解锁文章

空条徐伦的自学

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬取豆瓣排名报错参考——关键词：换行符|中文乱码|返回空值|正则问题

一、完整代码成功运行的代码（暂未加入爬取完整250条的循环，待更新）供参考：'''step1 数据获取_requests 用开发者工具F12调出页面源代码，观察所需要的数据储存位置如果储存在http页面中（服务器加载数据），可直接抓取如果储存在其它地方，用抓包工具发送请求，获得text版源码用print检查无误后,将text版源码赋值存入astep2
复制链接

扫一扫