爬取 美剧天堂:https://www.meijutt.com/new100.html
打开PowerShell,先打开目录,此处以桌面为例。
创建工程:
- scrapy startproject moive
创建爬虫程序:
- cd movie
- scrapy genspider meiju meijutt.com
打开文件夹可查看:
通过pycharm打开所创项目:
修改items.py文件:
查看网页源代码:
发现‘div class="lasted-num fn-left‘下有我们有需要的内容。
于是在meiju.py下做修改:
编写pipelinses.py文件,保存爬取数据到 json文件中:
修改 setting.py 文件:
将此处注释符‘#’删去即可
运行程序:scrapy crawl moive
打开.json文件:
网页爬取成功!
爬虫优化:反爬虫技术
-
封锁间隔时间
在setting.py文件中找到DOWNLOAD_DELAY:
意为3s向网站请求一次网页 -
封锁cookie破解
在setting.py文件中找到COOKIES_ENABLED:
禁用cookie使网站不能通过cookie来确定用户身份 -
封锁User-Agent破解
在setting.py文件中找到USER_AGENT:
修改USER_AGENT,隐藏自己的爬虫身份 -
封锁IP破解
在middlewares.py中添加一个代理类:
在 setting.py 中 启用 middlewares.py 中的 代理类:
在meiju.py中重写start_requests方法:
运行程序,可以看到修改后的程序:
此时成功隐藏爬虫身份【参考网址】
https://blog.csdn.net/bmx_rikes/article/details/82418124
https://www.cnblogs.com/HomeG/p/10527100.html