爬取糗事百科图片,(截止至2016/10/23可用)

区分开头像和图片所在文件夹就好

头像

<div class="article block untagged mb15" id='qiushi_tag_117810314'>

<div class="author clearfix">
<a href="/users/22028925/" target="_blank" rel="nofollow">
<img src="http://pic.qiushibaike.com/system/avtnew/2202/22028925/medium/2016100101212195.JPEG" alt="红颜一笑醉心弦~"/>
</a>
<a href="/users/22028925/" target="_blank" title="红颜一笑醉心弦~">
<h2>红颜一笑醉心弦~</h2>
</a>
<div class="articleGender manIcon">99</div>
</div>

真正的图

<div class="thumb">

<a href="/article/117810314" target="_blank">
<img src="http://pic.qiushibaike.com/system/pictures/11781/117810314/medium/app117810314.jpg" alt="隔着屏幕都听到它沉重的喘气声" />
</a>

</div>

一个是avtnew,一个是pictures,正则即可(我写的比较搓)

from urllib.request import Request,urlopen ,urlretrieve
from bs4 import BeautifulSoup
import re
import os
H = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
url = "http://www.qiushibaike.com/imgrank/page/5/?s=4922922"
req = Request(url=url,headers=H)
html = urlopen(req)
src = BeautifulSoup(html,"html.parser")
a = src.findAll("img",{"src":re.compile("http:\/\/pic\.qiushibaike\.com\/system\/pictures.*\.jpg")})

#创建文件夹
dir = os.getcwd()+"\\pic"  
if not os.path.exists(dir):
    os.makedirs(dir)

x = 1
for i in a:
    path = i["src"]
    urlretrieve(path,dir+'\\%s.jpg'%x)#下载
    x+=1
    


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值