爬取糗事百科图片，（截止至2016/10/23可用）

最新推荐文章于 2021-02-23 12:10:47 发布

hy1405430407

最新推荐文章于 2021-02-23 12:10:47 发布

阅读量512

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/hy1405430407/article/details/52900366

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

区分开头像和图片所在文件夹就好

头像

<div class="article block untagged mb15" id='qiushi_tag_117810314'>

<div class="author clearfix">
<a href="/users/22028925/" target="_blank" rel="nofollow">
<img src="http://pic.qiushibaike.com/system/avtnew/2202/22028925/medium/2016100101212195.JPEG" alt="红颜一笑醉心弦~"/>
</a>
<a href="/users/22028925/" target="_blank" title="红颜一笑醉心弦~">
<h2>红颜一笑醉心弦~</h2>
</a>
<div class="articleGender manIcon">99</div>
</div>

真正的图

<div class="thumb">

<a href="/article/117810314" target="_blank">
<img src="http://pic.qiushibaike.com/system/pictures/11781/117810314/medium/app117810314.jpg" alt="隔着屏幕都听到它沉重的喘气声" />
</a>

</div>

一个是avtnew，一个是pictures，正则即可（我写的比较搓）

from urllib.request import Request,urlopen ,urlretrieve
from bs4 import BeautifulSoup
import re
import os
H = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
url = "http://www.qiushibaike.com/imgrank/page/5/?s=4922922"
req = Request(url=url,headers=H)
html = urlopen(req)
src = BeautifulSoup(html,"html.parser")
a = src.findAll("img",{"src":re.compile("http:\/\/pic\.qiushibaike\.com\/system\/pictures.*\.jpg")})

#创建文件夹
dir = os.getcwd()+"\\pic"  
if not os.path.exists(dir):
    os.makedirs(dir)

x = 1
for i in a:
    path = i["src"]
    urlretrieve(path,dir+'\\%s.jpg'%x)#下载
    x+=1