只能在浏览器正常访问后的一段之间才能用爬虫爬取

依然是爬取五等分的花嫁漫画。在爬取时发现需要获得的某个数据只能在浏览器正常打开后才能获取,否则获得的是空数据。

折腾了cookie也没有用。想啊想,看啊看,试啊试,最终还是没有解决问题

又去参考了前辈的代码,加了header中的referer终于解决了问题。

headers = {
        'Referer':
            'https://www.dm5.com/manhua-bianfuxia-fuzhizuiqian'
        }

现在还是不明白为什么。先贴个关于referer的解释(发现这个单词竟然早期拼错,然后沿用下来了。我就觉得是referrer)

HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器基此可以获得一些信息用于处理

我错了,刚刚看了一眼,虽然获得了数据,但是得到的图片都是防盗链的图片。无fuck说。

到底为什么要先访问一遍才能获得数据呢

参考文章:

爬取动漫屋网站

转载于:https://www.cnblogs.com/roadwide/p/10805666.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值