一个小例子,跟据视频学习的。
主要学习爬虫,正则表达式,下载图片,保存文件,创建文件夹,字符串的连接等;
import os
import re #正则模块
import urllib
'''
爬虫例子,学习爬虫,正则,下载图片,保存文件,创建文件夹,字符串的连接
'''
#获取HTML
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
#获取图片URL
def getImg(html):
reg = r'src="(.*?\.jpg)" width'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist
#下载文件,保存文件
def downloadFile(urllist):
x = 0
filepath = "d:\pythontest"
if os.path.exists(filepath) is True:
filepath += "1"
os.mkdir(filepath)
for imgurl in urllist:
temppath = filepath+"\%s.jpg" % x
print temppath
urllib.urlretrieve(imgurl,temppath)
x+=1
if __name__ == "__main__":
html = getHtml("http://tieba.baidu.com/p/1692709597?fr=ala0&alath=2&pstbala=1")
print r"----------------->>获取HTML完毕".decode("utf-8").encode("gbk") #解决CMD控制台上中文乱码的问题
urllist = getImg(html)
print r"------------------>>分析URL完毕".decode("utf-8").encode("gbk")
downloadFile(urllist)
print r"------------------->>文件下载完毕".decode("utf-8").encode("gbk")