简例：爬虫与反爬虫

Ⅻ

于 2019-06-21 17:48:03 发布

阅读量306

点赞数 1

分类专栏： Python 文章标签： Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42582241/article/details/93210071

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

爬取美剧天堂：https://www.meijutt.com/new100.html

在这里插入图片描述
打开PowerShell，先打开目录，此处以桌面为例。

创建工程：

scrapy startproject moive

创建爬虫程序：

cd movie
scrapy genspider meiju meijutt.com

打开文件夹可查看：
在这里插入图片描述

通过pycharm打开所创项目：
在这里插入图片描述

修改items.py文件：
在这里插入图片描述

查看网页源代码：
发现‘div class="lasted-num fn-left‘下有我们有需要的内容。
在这里插入图片描述
于是在meiju.py下做修改：

编写pipelinses.py文件，保存爬取数据到 json文件中：

在这里插入图片描述

修改 setting.py 文件：

将此处注释符‘#’删去即可
在这里插入图片描述

运行程序：scrapy crawl moive
在这里插入图片描述
打开.json文件：

网页爬取成功！

爬虫优化：反爬虫技术

封锁间隔时间
在setting.py文件中找到DOWNLOAD_DELAY：

意为3s向网站请求一次网页
封锁cookie破解
在setting.py文件中找到COOKIES_ENABLED：

禁用cookie使网站不能通过cookie来确定用户身份
封锁User-Agent破解
在setting.py文件中找到USER_AGENT：

修改USER_AGENT，隐藏自己的爬虫身份
封锁IP破解
在middlewares.py中添加一个代理类：

在 setting.py 中启用 middlewares.py 中的代理类：

在meiju.py中重写start_requests方法：

运行程序，可以看到修改后的程序：

此时成功隐藏爬虫身份

【参考网址】
https://blog.csdn.net/bmx_rikes/article/details/82418124
https://www.cnblogs.com/HomeG/p/10527100.html

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。