文章系笔者总结整理之用。
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。
re 模块使 Python 语言拥有全部的正则表达式功能。
引入re模块
import re
直接引入博主AstralWind 的图片
用re模块的正则表达式写了一个小爬虫
获取网页中的图片。
方法一共4步:
打开网页,获取源代码,通过字符串匹配(正则表达式),download。。
#coding: utf-8
import urllib
import re
def getHTML(url):
page = urllib.urlopen(url) #打开url
html = page.read() #获取内容
return html
def getImg(html):
reg = r'src="(.*?\.jpg)"' #注意引号的位置 单引号在外
ll = re.findall(reg,html) #返回所有符合条件的列表
x = 0
for img in ll:
urllib.urlretrieve(img,'%s.jpg' % x) #下载所有图片
x += 1
html = getHTML('http://tieba.baidu.com/p/4324356358')
getImg(html)
。。待续