环境:python3.5
今天拿抓取花瓣网上的美女图片来练练手
抓取图片,主要是要知道图片资源的url,知道了url后,就可以使用urllib.request.urlretrieve( )方法保存到本地了。
下面就直接贴代码吧,代码中有详细注释。
#coding:utf-8
'''
Created on 2016年8月16
@author: FangLiang
'''
import urllib.request
import re
#### 获取网页源码
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read().decode('utf-8') #需要解码
return html
#### 下载图片
def getImage(html):
#### 获取HTML源码里面的app.page["pins"]部分,主要图片ID位于此部分
app_page_pins_re = re.compile(r'app.page\\["pins"\\](.*?);',re.S)
app_page_pins_str = re.findall(app_page_pins_re,html)[0]
pin_id = r'"pin_id":(\d+)'
pin_id_re = re.compile(pin_id)
#### 获取图片ID,保存在列表中
pin_id_list = re.findall(pin_id_re,app_page_pins_str)
x = 0
for pinid in