python爬虫时爬虫爬数据时出现“访问本页面，请开启JavaScript并刷新该页”

最新推荐文章于 2023-11-09 11:51:30 发布

欧阳dada

最新推荐文章于 2023-11-09 11:51:30 发布

阅读量6.6k

点赞数 1

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ouyangzyy/article/details/108506697

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近没事的时候就爱爬小说玩，也不看，就是觉得爬小说好嗨皮(^▽)。以前都是在网上下TXT，现在发现，有可能也是这么来的(^▽)

但执行的时候一直有个问题，之前也没怎么注意，因为没有打印页面的信息，所以一直没注意，今天打印了下，在打印的页面中发现了"访问本页面，请开启JavaScript并刷新该页"。
在这里插入图片描述

我仔细一想这大概是网站做的反爬。百度了下后，大概是知道了为什么会这样。

原因：页面加载是通过JS刷新页面，或者是中间有一个过渡的301或302跳转页面。由于直接请求获取后JS刷新不完全或者是请求的地址是301或302这样的跳转页面，自然就得不到想要的信息和数据了。

解决办法：
1、一种是在headers中添加该网站的Cookie，但需要注意的是Cookie的值过一段时间会发生变化，要重新获取。
在这里插入图片描述
但是，好像过段时间cookie就不管用了，就得重新获取新的。不知道是为啥。

2、第二种方法，我看搜的是用的是requests模块，这个模块可以很好的解决JS加载不完全的问题。目前对requests模块还不是特别熟悉，就不卖弄了。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
python爬虫时爬虫爬数据时出现“访问本页面，请开启JavaScript并刷新该页”

在此之前，爬取其他网站到没有遇到过这种问题，这种类似国家网站，竟然设置了反爬虫，解决办法：使用headers里面添加cookie访问。注意：Cookie的值过一段时间会发生变化，要重新获取。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。