手把手教你用Python爬虫煎蛋妹纸海量图片

我们的目标是
用爬虫来干一件略污事情


最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛。而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较好的套路,特意分享下用点简单的技术去获取资源。
以后如果有机会,再给大家说说日本爱情动(大)作(雾)片的种子搜索爬取,多多关注。






请先准备作案工具


我们只准备最简单的

  • python 2.7.11
  • Google Chrome
安装的时候记得把pip带上,这样可以方便我们安装一些好用的包,来方便我们干坏事(学习)的过程。

需要用到的包

  • 包括更佳符合人类的HTTP库--requests
  • 用来解析html文件,快速提取我们需要的内容--beautifulsoup4


也可以用下面的命令快速安装

  • pip install requests
  • pip install beautifulsoup4


干正事
从一次正常需求说起


每天在互联网上冲来冲去,浏览着大量的信息,观看这各种鼻血喷发的图片,于是作为新时代青年的我们,怎么能忍受被这些大量的垃圾信息充斥的互联网,我们要反抗,我们要下载!


请,看,下,图



当你在网上冲浪的时候遇到这样的图片,我就问你:
虐不虐?虐死了!
下不下?下!


开始吧
获取图片的CSS选择器的规则


首先,我们需要定位我们需要的图片
(点开大图很清晰)


根据我们之前的准备的作案工具,使用chrome来访问网页
http://jandan.net/ooxx
然后打开开发者工具菜单 -> 更多工具 -> 开发者工具
看下图右边的神器
(图都不点开还学个毛线)



点击这个图标会出现块选择器,
鼠标移动我们感兴趣的部分
(点开大图,你就看得见点哪里了)



按照图片指示点击区域
(点开大图……我都懒得复述了)


右边神器中就会出现我们所需要的img标签
(开,大,图。科科)


查看之前最后一个以#comments开头的标签, 
它包含了所有img的子标签。



下面让我们来一些
神秘的事


打开cmd或者终端
输入python



输入以下神秘代码


现在偷偷看一下你的当前目录
是不是有很多(污)的图片



名词解释
网络爬虫


网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫的使用对很多工作都是很有用的,但是对一般的社区,也需要付出代价。使用爬虫的代价包括:
网络资源:在很长一段时间,爬虫使用相当的带宽高度并行地工作。
服务器超载:尤其是对给定服务器的访问过高时。
质量糟糕的爬虫,可能导致服务器或者路由器瘫痪,或者会尝试下载自己无法处理的页面。
个人爬虫,如果过多的人使用,可能导致网络或者服务器阻塞。


是不是还不够
行踪不定的下期预告


看着上面规整的排版——前后有序、图文并茂,不就是练手爬虫技术最好的机会吗?今天就到这里了,读取下一页什么的就靠你自己探索,我将会在下个系列给你一个参考方法,希望你持续关注。


反爬虫

来源:www.bigsec.com


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值