Python爬取豆瓣排名报错参考——关键词:换行符|中文乱码|返回空值|正则问题

一、完整代码成功运行的代码(暂未加入爬取完整250条的循环,待更新)供参考:'''step1 数据获取_requests 用开发者工具F12调出页面源代码,观察所需要的数据储存位置 如果储存在http页面中(服务器加载数据),可直接抓取 如果储存在其它地方,用抓包工具 发送请求,获得text版源码 用print检查无误后,将text版源码赋值存入astep2
摘要由CSDN通过智能技术生成

目录

一、完整代码

二、问题总结

(一)因换行符导致正则匹配错误

(二)编码有问题导致无法打印

(三)csv文件中文乱码


一、完整代码

成功运行的代码(暂未加入爬取完整250条的循环,待更新)供参考:

'''
step1  数据获取_requests
           用开发者工具F12调出页面源代码,观察所需要的数据储存位置
                如果储存在http页面中(服务器加载数据),可直接抓取
                如果储存在其它地方,用抓包工具
           发送请求,获得text版源码
           用print检查无误后,将text版源码赋值存入a

step2  用re提取所需信息_re
           写好正则obj = re.compile('正则规则',re.S)
           赋值result = obj.finditer('a')
           用for in 循环抓取匹配正则的信息
           用print检查无误后,将抓取字段赋值存入dic
            
step3  将数据写入csv  
'''


# step1 数据获取
import requests

url = 'https://movie.douban.com/top250'
headers = {'User-Agent': '马赛克我的信息'}
resp = requests.get(url,headers=headers)
content = resp.text                     # 先用print(resp.t
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值