python项目之 爬虫爬取煎蛋jandan的妹子图-上
抓取妹子图练练手。
网页url格式
http://jandan.net/ooxx/page-1777#comment
只需改变页码1777即可
分析页面源码发现妹子图有两个
一个是缩略图
<img src="http://ww1.sinaimg.cn/mw600/4bf31e43jw1f09htnzkh5j20dw0kumz0.jpg" /></p>
另一个是原图
<a href="http://ww1.sinaimg.cn/large/4bf31e43jw1f09htnzkh5j20dw0kumz0.jpg" target="_blank" class="view_img_link">[查看原图]</a>
这里我们抓取原图,使用class和target这个属性查找。
最终得到每一页的TXT文件,下篇是文件合并与图片存取。
源码如下
代理ip文件请自行查找:-D
# coding:utf-8<