python通配符.

小桔帽

已于 2023-11-29 16:27:21 修改

阅读量1.3w

点赞数 2

分类专栏： python 爬虫文章标签： python mysql 开发语言

于 2017-02-08 10:40:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010895119/article/details/54923998

版权

python 同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

在写爬虫的时候，遇到一个小问题，跨html标签（也就是多行）的时候，正则匹配不出来：

举例html：

<div  class="nav-logo">

	<a  href="https://www.douban.com">豆瓣社区</a>

	</div>

这个是我写的正则：

reg = u'<a.*?href=(.*?)>.*?</a>.*?</div>'

titleRe = re.compile(reg)

titlelist = re.findall(titleRe,html)

然后匹配出来的都是空，修改以后就匹配成功了：

reg = u'<a.*?href=(.*?)>.*?</a>.*?</div>'

titleRe = re.compile(reg,re.S)

titlelist = re.findall(titleRe,html)

原因：通配符“.”默认是不匹配换行符“\n”的，即默认只匹配一行，加上re.S后就可以匹配换行符了~~

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小桔帽 CSDN认证博客专家 CSDN认证企业博客

码龄11年

54: 原创

6万+: 周排名

144万+: 总排名

43万+: 访问

: 等级

3559: 积分

32: 粉丝

118: 获赞

23: 评论

254: 收藏

私信

关注

热门文章

分类专栏

java 1篇
UI自动化 2篇
python 27篇
爬虫 3篇
Appium 1篇
f2etest 1篇
selenium 6篇
jmeter 1篇
接口测试 1篇
unittest 5篇
flag
css选择器 2篇
docker 1篇
装饰器 1篇
import 1篇
HtmlTestRunner 2篇
TestFlight 1篇
logging 2篇
Charles 1篇
心情 1篇
SQL 4篇
git 2篇
Redis 1篇
Jenkins 1篇
Pycharm 1篇
iOS 1篇

最新评论

python 多个文件共享数据或变量
Liu_Jiewen: 不懂装懂滥竽充数
python logging输入文件中文字符乱码
秋不溜啾: logging.StreamHandler()不能定义encoding咋整
python 多个文件共享数据或变量
IS_IF...: 不可能实现的，python没有共享内存的。如果需要老老实实做服务器来传递把
Python logging浅尝（将log同时输出到Console和日志文件）
jiahe1224: 我执行的脚本里添加了logging，然后这个脚本中会执行其它脚本，os.system("python script_name.py")，但是其它脚本中的print只在终端输出，不会保存到文件，该怎么设置呢
python+selenium中的Implicit Waits/Explicit Waits/sleep以及Fluent waits
刘昌宗: 楼主你好，我想知道你文章末尾的references的第三个链接，有关selenium的那个，是怎么发现的。我最近在学selenium，去官网看文档，那个文档非常不清晰，很多内容都没有。直到今天看到你贴出来的链接，阅读后才算有了一个了解。我很奇怪，为什么我在google，baidu,bing上搜索，都不会发现你贴的这个链接，这是为什么？为什么这么好的文档却没有在搜索结果上显示？你又是怎么发现这个链接的呢？谢谢！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。