Python爬虫入门-利用requsets库爬取煎蛋网妹子图

标签: python 爬虫
1375人阅读 评论(0) 收藏 举报
分类:

其实之前是想利用煎蛋网来联系一下scrapy的ImagesPipeline爬取煎蛋网的妹子图并下载下来保存到本地,无奈这个ImagePipeline一点都不给面子一直报404错误,而且我还不知道问题出在哪里,所以一怒之下就不用框架了,直接爬一下。
先来一张:

03ab2de224153f9b79c839090f4bb73c.jpg

从下图可以看出总的页数:

分析-00.png

在翻页的过程中URL中只有页数是在发生改变的,这个就比较好构建URL了,而且图片的信心在原始的请求里面就能够找到图片的链接地址,这个也比较好办:

分析-01.png

于是可以开始写代码了:

import requests
from pyquery import PyQuery as pq
from requests.exceptions import RequestException
import os
from hashlib import md5
from multiprocessing import Pool

headers={
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding':'gzip, deflate, sdch',
    'Referer':'http://jandan.net/ooxx',
    'Referer':'http://jandan.net/ooxx',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'Cookie':'__cfduid=d0f8f8aef303ad3b55cd071a426e7a59c1504854664; _ga=GA1.2.986719823.1501079288; _gid=GA1.2.1585289570.1506061387',
}

def get_page(url):
    response=requests.get(url,headers=headers)
    try:
        if response.status_code==200:
            return response.text
        return None
    except RequestException:
        return None

def parse_page(html):
    doc=pq(html)
    links=doc('.commentlist .row .text p a')
    for link in links:
        image_url='http:'+pq(link).attr('href')
        yield image_url

def download_image(url):
    response=requests.get(url,headers=headers)
    try:
        if response.status_code==200:
            return response.content
        return None
    except RequestException:
        return None

def save_image(content):
    path_name='{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')
    if not os.path.exists(path_name):
        with open(path_name,'wb') as f:
            f.write(content)
            f.close()

def main(page):
    print('===============开始抓取第%r页==============='%page)
    url = 'http://jandan.net/ooxx/page-{}#comments'.format(page)
    html=get_page(url)
    if html:
        urls=parse_page(html)
        for url in urls:
            print('正在下载:%r'%url)
            content=download_image(url)
            save_image(content)

if __name__=='__main__':
    pool=Pool()
    pool.map(main,[page*1 for page in range(1,137)])

运行结果如下:

运行-01.png

总共下载下来3560几张图片:

运行-02.png

妹子图看多了真是够审美疲劳的,什么丰乳美臀的、露腿露点的,一点兴趣都没有,想想这些皆不若气质二字来得重要。

查看评论

python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索

本次爬虫网址:http://jandan.net/ooxx 前言:   前段时间一直在折腾基于qqbot的QQ机器人,昨天用itchat在微信上也写了一个机器人,相比webqq,微信的...
  • van_brilliant
  • van_brilliant
  • 2017-12-06 19:04:02
  • 2263

Python爬虫入门学习例子之煎蛋网(福利哦)

初学Python爬虫,学习资料是这篇博客:Python爬虫入门教程 经过前边两个例子(糗事百科爬虫和百度贴吧爬虫)的学习,我自己写了一个练习的例子:爬煎蛋网的妹子图,福利哦(*^__^*)  #煎蛋网...
  • login_sonata
  • login_sonata
  • 2016-10-03 22:51:36
  • 2197

python3网络爬虫:爬取煎蛋网美女照片

1.1 前言 今天开学不久,课野不多,就想着来做个爬虫,看着好多老司机喜欢看美女图片,想做个爬去煎蛋网的小爬虫。哈哈,下面开车了,各位,上车记得滴卡 参考: http://blog.csdn.n...
  • JavaLixy
  • JavaLixy
  • 2017-09-06 15:29:37
  • 6296

Python爬虫之煎蛋网妹子图爬虫,解密图片链接加密方式

之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片。后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的...
  • Stopfollow
  • Stopfollow
  • 2018-03-19 15:19:29
  • 351

煎蛋网妹子图python爬虫

  • 2017年09月02日 21:07
  • 4KB
  • 下载

python项目之 爬虫爬取煎蛋jandan的妹子图-上

python项目之 爬虫爬取煎蛋jandan的妹子图-上抓取妹子图练练手。网页url格式 http://jandan.net/ooxx/page-1777#comment 只需改变页码177...
  • lyffly2011
  • lyffly2011
  • 2016-03-08 14:20:55
  • 8385

手把手教你用Python爬虫煎蛋妹纸海量图片

我们的目标是 用爬虫来干一件略污事情 最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛。而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较...
  • bigsec
  • bigsec
  • 2017-11-29 15:48:23
  • 553

Python爬虫(6):煎蛋网全站妹子图爬虫

上一篇文章中我们抓取了豆瓣图书的数据,如果大家运行成功,并且看到文件夹下的 txt 文件了。是不是有一种刚接触编程,第一次输出Hello world!时...
  • yanwucao
  • yanwucao
  • 2018-04-07 12:43:51
  • 56

煎蛋网爬虫小练习

1 #!/usr/bin/python 2 #coding:utf-8 3 import urllib.request 4 import os 5 import time 6 import ...
  • qq_31396185
  • qq_31396185
  • 2018-03-20 21:12:43
  • 38

nodejs爬虫----爬取煎蛋网美女图片

这是一个很简单的爬虫,主要是爬取简单妹子图 不跟你多BB,马上上车…,你需要先安装好nodejs,npm,最好能有淘宝镜像cnpm负责响应网络请求的request模块npm install requ...
  • dexing07
  • dexing07
  • 2017-01-09 15:44:08
  • 1856
    个人资料
    持之以恒
    等级:
    访问量: 2万+
    积分: 412
    排名: 11万+
    文章存档
    最新评论