python爬虫第一个,爬取斗图啦,程序猿斗图从来没输过.

9 篇文章 0 订阅
6 篇文章 0 订阅

最近几天博客一直没有跟新,本人也对爬虫有深深的兴趣所以就花了一天时间,自学了一下,然后实战爬取斗图啦.
在这里插入图片描述
话不多说直接上码,相信小白也看的懂,

import requests
import re
import urllib.request
#定义目标网站url
url='http://www.doutula.com/photo/list/?page='
# #编写模拟浏览器获取
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
           'Accept':'text/html;q=0.9,*/*;q=0.8',
           'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
           'Accept-Encoding':'gzip',
           'Connection':'close',
           'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host
}
#遍历获得目标网站的每一页
for i in range(1,101):
    urls=url+str(i)
    #用Request的get请求获取网页代码
    r = requests.get(urls,headers=headers)
    html=r.text
    # #用正则匹配获取图片链接
    zz=re.compile(r'data-original="(.*?)".*?alt="(.*?)"',re.S)
    img=re.findall(zz,html)
    #遍历得到图片名字和url
    for a in img:
        #设置保存路径
        path=('D:\爬虫\斗图啦\%s'%(a[1]))
        #用urllib库来进行保存
        urllib.request.urlretrieve(a[0],path)


爬取了100页吧
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值