最近迷上python爬虫,所以在这里会陆续更新这段时间做的东西。
首先本次是使用python3在一个网页上下载主体部分的图片。
参考网页:http://www.jianshu.com/p/696922f268df
获取图片的网页:http://pic.yesky.com/c/6_243.shtml
要获取的就是如上荧光圈起来的部分。首先要在和脚本相同文件夹下新建一个文件夹picture。
直接上代码
#coding=utf-8
import urllib
import urllib.request
import re
def download_page(url):
request = urllib.request.Request(url) #构建请求
reponse = urllib.request.urlopen(url) #获取服务器响应
data = reponse.read()
return data
def get_image(html):
regx = r'http://dynamic-image.yesky.com/185x247/uploadImages/2017/1[\S]*\.jpg'
pattern = re.compile(regx)
get_img = re.findall(pattern,repr(html))
num = 0
for img in get_img:
num += 1
image = download_page(img) #获取图片
with open('picture/%s.jpg'%num,'wb')as fp:
fp.write(image)
print('正在下载第%s张图片'%num)
print('获取图片成功')
return
url = 'http://pic.yesky.com/c/6_243.shtml'
html = download_page(url) #获取网页
get_image(html)
一开始根据参考网页写出来的会将网页上面和下面的图片也下载下来,所以就将正则表达式根据需要的图片的链接做了修改。