python爬虫-爬取美女图片

当你发现某个网站上有大量的美女图片,又非常想看,怎么办,网页上看?每次看的时候都得加载吧!No,你可以把这些图片都保存到本地,然后,在你想看的时候就可以随时看了,哈哈!多的不说。下面就来上代码:
1,导入库文件:
# -*- coding:utf-8 -*-

# 通过requests模块下载网络内容
import requests
#引入正则表达式模块,时间模块
import re, time
2,找到有美女图片的链接地址:
def getpageurl():
    page_list = []
    #进行列表页循环
    for page in range(1600,1999):
        url="http://jandan.net/ooxx/page-"+str(page)+"#comments"
        #把生成的url加入到page_list中
        page_list.append(url)
    return page_list

3,利用正则表达式,从网页内容中匹配出要下载图片的链接地址:

def geturllist(url):
    url_list=[]
    print url

    #head是我们自己构造的一个字典,里面保存了user-agent
    head = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'}
    # html = requests.get('http://jp.tingroom.com/yuedu/yd300p/')
    html = requests.get(url, headers = head)
    text = html.text
    #正则匹配,匹配其中的图片
    pic_urls = re.findall('</a><br /><img src="(.*?).jpg" /></p>', text)
    for i in pic_urls:
        image = i + '.jpg'
        print 'image url = ' + image
        url_list.append(image)
    return url_list

你可能已经注意到了这么一句:
html = requests.get(url, headers = head) :这里不仅传入了url,而且还传入了一个头,对了,这里一定要非常注意,如果你不设置请求头,很多网站都设置了权限,可以检测当前的操作是不是在浏览器中完成的。知道了这一点,就简单多了。我们只需要伪装一下,伪装成是浏览器中的操作,那么怎么得到这个头的内容呢?
如果你是chrome浏览器那么简单了,打开开发者调试模式,选中network,重新刷新一下网页,你会得到类似下面的东西:

这里写图片描述
好了,浏览器的参数得到了,你可以进行欺骗了。
4,上面的两个方法足以让你抓取到图片,那么具体怎么使用这两个方法呢?看下面:

if __name__ == '__main__':

    pageurl = getpageurl()[:-1]
    #进行图片下载

    for url in pageurl:
        url_list = geturllist(url)

        i = 0

        for each in url_list:
            print 'now downloading:' + each
            pic = requests.get(each)
            name=str(time.time())[:-3]+"_"+re.sub('.+?/','',each)
            fp = open('pic//' + name , 'wb')
            fp.write(pic.content)
            fp.close()
            i+=1

好了,大功告成,你可以运行下试试,如果缺少相应的库,可以先进行安装,这里库安装的方法不做介绍了。

调试环境:Mac , pyCharm
欢迎交流经验。

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值