简例:爬虫与反爬虫

爬取 美剧天堂:https://www.meijutt.com/new100.html

在这里插入图片描述
打开PowerShell,先打开目录,此处以桌面为例。

创建工程:

  • scrapy startproject moive

创建爬虫程序:

打开文件夹可查看:
在这里插入图片描述

通过pycharm打开所创项目:
在这里插入图片描述

修改items.py文件:
在这里插入图片描述

查看网页源代码:
发现‘div class="lasted-num fn-left‘下有我们有需要的内容。
在这里插入图片描述
于是在meiju.py下做修改:
在这里插入图片描述

编写pipelinses.py文件,保存爬取数据到 json文件中:

在这里插入图片描述

修改 setting.py 文件:

将此处注释符‘#’删去即可
在这里插入图片描述

运行程序:scrapy crawl moive
在这里插入图片描述
打开.json文件:
在这里插入图片描述
网页爬取成功!

爬虫优化:反爬虫技术

  1. 封锁间隔时间
    在setting.py文件中找到DOWNLOAD_DELAY:
    在这里插入图片描述
    意为3s向网站请求一次网页

  2. 封锁cookie破解
    在setting.py文件中找到COOKIES_ENABLED:
    在这里插入图片描述
    禁用cookie使网站不能通过cookie来确定用户身份

  3. 封锁User-Agent破解
    在setting.py文件中找到USER_AGENT:
    在这里插入图片描述
    修改USER_AGENT,隐藏自己的爬虫身份

  4. 封锁IP破解
    在middlewares.py中添加一个代理类:
    在这里插入图片描述
    setting.py 中 启用 middlewares.py 中的 代理类:
    在这里插入图片描述
    在meiju.py中重写start_requests方法:
    在这里插入图片描述

    运行程序,可以看到修改后的程序:
    在这里插入图片描述
    此时成功隐藏爬虫身份

    【参考网址】
    https://blog.csdn.net/bmx_rikes/article/details/82418124
    https://www.cnblogs.com/HomeG/p/10527100.html

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值