先贴上代码:
主要会有几个问题:
1,获取网页的编码问题
2,正则表达式的问题
3,获得的列表循环问题
import re
import urllib.requestdef getHtml(url):
page = urllib.request.urlopen(url)
html = page.read().decode('utf-8')#注意!这一步很关键,在python 3 中所得到的数据都属字节型的,必须要转成utf-8
return html
def getImg(html):
reg =r'src="(.*?\.jpg)" size'
regg = re.compile(reg)
imagelist = regg.findall(html)
print (imagelist)
x=1
for imgurl in imagelist:
urllib.request.urlretrieve(imgurl, 'len_%s.jpg' % x)
print ("正在打印第",x,"张")
x+=1
html=getHtml('http://tieba.baidu.com/p/4591074187')
print(getImg(html))