使用pytho语言,爬取百度贴吧某帖子内的全部图片
2018年全国高校大数据能力提升大赛初赛试题(仅做个人学习用途,如有侵权请联系我删除):
主要思想就是用正则表达式匹配到图片,然后在浏览器中用开发者模式具体查看
#coding=utf-8
import urllib.request
import re
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getImg(html):
html = html.decode('utf-8')
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
print('Getting the %s picture' % x)
html = getHtml("https://tieba.baidu.com/p/2460150866?pn=3")
getImg(html)