python爬虫爬网页部分内容空白,但源码可以看到,已解决

曾尝试各种方法,没有效果。使用的是函数requests.get(),已写header、cookie、User-Agent,也写了rsp.encoding = rsp.apparent_encoding。
但是仍是爬取不了。奇怪的同一个网站同一个榜单,只是页数不同,前若干页能爬取,后若干页就爬取不了,一度怀疑是不允许爬。

最后终于发现原因!

因为Cookie找错了(kao!!!!!)
注意要用这里的cookie!
(下图是Chrome的开发者工具视图)在这里插入图片描述
在这里插入图片描述
用requests.get()的标准格式:
【只是个人觉得的】

# 伪装成浏览器,防止封ip
headers = {
        'User-Agent': 'XXX',
        'Host': 'XXX',
        'Cookie': 'XXX',
    }
    # 防止爬虫突然断掉,使其重复执行访问
    tries = 10
    while tries > 0:
        try:
            rsp = requests.get(url, headers=headers)  # url:访问的网址
            break
        except Exception as e:
            tries -= 1
            # print(e)
    # 防止中文乱码
    rsp.encoding = rsp.apparent_encoding
    data = rsp.text

浪费了我那么多时间,好气!

如果有帮助就点个赞吧。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值