Python中的正则表达式

文章系笔者总结整理之用。

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。


引入re模块

import re


直接引入博主 的图片


用re模块的正则表达式写了一个小爬虫

获取网页中的图片。

方法一共4步:

                 打开网页,获取源代码,通过字符串匹配(正则表达式),download。。

#coding: utf-8
import urllib
import re
def getHTML(url):
	page = urllib.urlopen(url)  #打开url
	html = page.read() #获取内容
	return html
def getImg(html):
	reg = r'src="(.*?\.jpg)"' #注意引号的位置 单引号在外
	ll = re.findall(reg,html) #返回所有符合条件的列表
	x = 0
	for img in ll:
		urllib.urlretrieve(img,'%s.jpg' % x) #下载所有图片
		x += 1
	
html = getHTML('http://tieba.baidu.com/p/4324356358')
getImg(html)



。。待续

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值