## python之文本爬虫 ##
用python做可以读取到网页源代码(静态网页)的方法。
分析:
1,获取网页源代码,保存。
2,读取文件。
3,匹配要抓取的内容。
4,完成保存。
以抓取网页图片为例:
#-*-coding:uft8-*-
#导入所需库文件
import re
impore requests
#读取源代码文件
f=open('文件名称','r')
html=f.read()
f.close()
#匹配图片地址(使用正则表达式)
pic=re.findall('img src="(.*?)",re.S)
i=0
for each in pic:
try:
pic1=requests.get(each)
fp=open('pic\\'+str(i)+'.jpg','wb')
fp.write(pic1.content)
fp.close()
i=i+1
except:
print"下载出错"