从零开始的爬虫学习(二)爬取动漫之家的漫画

上篇讲了如何爬取一张图片,这里就爬取 大妈之家 的一部漫画吧!
可以通过修改目标地址,爬取任意一部 大妈之家 的一部漫画!
本篇内容
“”"
1、抓取西刺代理网站的代理ip
2、并根据指定的目标url,对抓取到ip的有效性进行验证
3、最后存到指定的path
4、随机提取代理ip
5、爬取目标网站的漫画,存放在D:\getting
“”"

为了保证爬取工作的正常进行,我们有必要建设属于自己的ip池。在被目标网站封锁ip的情况下,让爬取工作顺利进行。
这了介绍的代理ip网站是 http://www.xicidaili.com/
通过爬取它提供的代理ip,建立自己的IP池。
并调取代理IP对目标网站进行访问。

提几个爬取中遇到的问题:(感谢正义的反派人士提供了解决方法)
1.大妈之家在每一话的一页中都包含了同一话的所以图片,可以通过运行页面信息附带js代码获得,可以将回复打印出来看到 eval 之后包含了js代码。也可单页访问,但要注意访问时,会自动跳转到新的页面。
2.如果爬取的图大小恒定,例如 256 168 ,且损坏不能打开,要注意目标网站的反爬虫措施,大妈之家 的方法是 检查了跳转来到当前网站的上次所在地址,根据正义的反派人士的方法已经解决。值得注意的是,部分网站采用的预先加载一副等待图片后,再跳转带目标网站,这类需要对跳转代码进行分析处理。

直接上图
在这里插入图片描述
在这里插入图片描述
源代码就不贴出来了,正义的反派人士已经介绍得非常详细了,如有需要源代码请访问我的博客主页。
一些反爬虫的方法,在博客中有介绍。
最后推荐 漫画 黑社会的超能力女儿

下一篇就去爬取一些网站用户信息,代码不开源。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值