Python3爬虫爬取某网站美女图片

原创 2015年07月07日 09:00:28

这个网站和很多网站一样,对爬虫有限制,他的限制方式应该是1.请求过快的是机器人,封!2.不是浏览器发来的请求,封!所以我加了休眠,并伪装成了浏览器。代码如下:

from urllib.request import urlopen
import urllib.request
from bs4 import  BeautifulSoup
import os,sys,time
import http.cookiejar

path = os.getcwd()
new_path = os.path.join(path, u'豆瓣妹子')
if not os.path.isdir(new_path):
    os.mkdir(new_path)

def makeMyOpener(head={
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}):
    cj = http.cookiejar.CookieJar()
    opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
    header = []
    for key, value in head.items():
        elem = (key, value)
        header.append(elem)
    opener.addheaders = header
    return opener
def crawl_loop(index):
    oper = makeMyOpener()
    url = 'http://www.dbmeinv.com/dbgroup/show.htm?pager_offset=%s' % index
    html = oper.open(url)
    bsObj = BeautifulSoup(html)
    girl_list = bsObj.findAll('img')
    if not girl_list:
        print(u'已经全部抓取完毕')
        sys.exit(0)

    print(u'开始抓取')
    print("====================================================================================")
    for girl in girl_list:
        link = girl.get('src')
        try:
            content = urlopen(link).read()
            with open(u'豆瓣妹子'+'/'+link[-11:],'wb') as code:
                code.write(content)
        except TimeoutError as e:
            print(e)

    index = int(index)+1
    print(u'开始抓取下一页')
    print('第 %s 页' % index)
    time.sleep(1)
    crawl_loop(index)
crawl_loop(119)

python3 爬取豆瓣妹子

__author__ = 'NFD' # -*- coding:UTF-8 -*- import urllib.request import os import re import time fro...

python3网络爬虫:爬取煎蛋网美女照片

1.1 前言 今天开学不久,课野不多,就想着来做个爬虫,看着好多老司机喜欢看美女图片,想做个爬去煎蛋网的小爬虫。哈哈,下面开车了,各位,上车记得滴卡 参考: http://blog.csdn.n...

自己动手,丰衣足食!Python3网络爬虫实战案例

第一章:环境配置; [1 r2 i0 H. C# R9 x: R 1 Python3+Pip环境配置  22:10  1 e$ z, ~' y. p  E 购买后请及时添加课程助手tianshan...

Python3 百度图片 美女 下载 爬虫 多线程

本人电子系,只为一学生。心喜计算机,小编以怡情。 说明:下载百度图片中的美女图片 修改:默认url都已经写好了,只需要改一下cookies就可食用 附加:运用了多线程,一个线程...

[Selenium] Selenium定向爬取海量精美图片及搜索引擎杂谈

我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点:         1.可以了解Python简单爬取图片的一些思路和...
  • Hk_john
  • Hk_john
  • 2017年10月17日 16:53
  • 89

Python3 大型网络爬虫实战 003 — scrapy 大型静态图片网站爬虫项目实战 — 实战:爬取 169美女图片网 高清图片

开发环境 观察网页 和 网页源代码 写程序 下载高清图片 下载 169美女图片网 的所有西洋美女的图片 防反爬技术 搞定开发环境 Python第三方库:lxml、Twisted、pywin32、scr...

python爬虫-爬取美女图片

当你发现某个网站上有大量的美女图片,又非常想看,怎么办,网页上看?每次看的时候都得加载吧!No,你可以把这些图片都保存到本地,然后,在你想看的时候就可以随时看了,哈哈!多的不说。下面就来上代码: 1,...

程序员的福利:使用WebCollector爬取某美女网站上的图片

某网站,有海量美女图片,里面默认是按美女的英文名字(A-Z)排序的。估算了一下,至少也得有几千位美女照片,每位的照片数目从几十张到上千张不等。浏览了几天,保存了也不少,才浏览了很少的一部分。心想,用浏...

使用python抓取美女福利图片

这篇文章干嘛的?本屌在上网时偶然看到一个图片网站,网站的尺度是这样的: 里面的美女露骨而不露点,简直是宅男福利。一时兴起,决定将网站上的图片down下来研究研究。正好最近在研究python,所以决定用...

python——图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 进阶篇

在上一篇博客中:python——图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 基础篇 我讲解了图片爬虫的基本步骤,并实现了爬虫代码 在本篇中,我将带领大家对基础篇中的代码进行改善,...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python3爬虫爬取某网站美女图片
举报原因:
原因补充:

(最多只允许输入30个字)