import urllib.request
import re
import time
下载图像的函数
#imgurl:图像网络存储地址
#'D:\python\code\girls\%s.jpg'%img_num:本地存储路径及名称
download_img=urllib.request.urlretrieve(imgurl,'D:\python\code\girls\%s.jpg'%img_num)
延时1s,可以防止操作频繁,让网站发现
time.sleep(1)
正则匹配,返回一个满足条件的列表
reg2=r'http://www.douban.com/group/topic/\d+'
topiclist=re.findall(reg2,html2)
伪装浏览器,读取网页
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/51.0.2704.63 Safari/537.36'}
req = urllib.request.Request(url=article_url, headers=headers)
html = urllib.request.urlopen(req).read().decode('utf8', 'ignore')#'ignore'可以防止解码报错