【Python】采集网页-匹配多行-正则表达式换行符

最新推荐文章于 2024-01-15 10:32:19 发布

刺寒622

最新推荐文章于 2024-01-15 10:32:19 发布

阅读量1.8k

点赞数 2

分类专栏： Python

本文链接：https://blog.csdn.net/u010778231/article/details/104049210

版权

在Python网页采集过程中，遇到源码包含换行符导致的多行匹配问题，可以采取两种方法解决。一是替换源码中的换行符，二是使用正则表达式的[sS]来匹配任意字符包括换行。本文提供了具体实现和参考资料。

摘要由CSDN通过智能技术生成

页面源码中带有换行符，或者想匹配多行内容，

<h3 id="hello">HelloWorld!</h3>
<ul>                            #要抓取<ul>~</ul>之间的内容，即多行，包含\n
<li>                            #如何解决？
<p>This is a big world!</p>
</li>
<li>
<p>where are you from?</p>
</li>
</ul>

解决方法：

1.匹配前做处理：在获取页面源码后，用replace过滤掉所有的\n, 这样在匹配目标内容时，不再需要考虑\n.

html = html.replace('\n', '')
target_contents = re.findall(r'r'<h3 id="hello">HelloWorld!</h3><ul>(.*?)</ul>'', html)

2.不处理抓取出来的源码, 在匹配时，注意正则表达式，不使用'.' ，使用[\s\S]：

\s --> 匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S --> 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。

target_contents =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

刺寒622

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

正则表达式 与 XPath 语法领域细解，初学阶段的你，该怎么学？

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

08-21

2万+

周末不休息，更文！

Python 匹配任意字符（包括换行符）的正则表达式写法

12-25

想使用正则表达式来获取一段文本中的任意字符,写出如下匹配规则： (.*) 结果运行之后才发现，无法获得换行之后的文本。于是查了一下手册，才发现正则表达式中，“.”(点符号)匹配的是除了换行符“\n”以外的所有字符。以下为正确的正则表达式匹配规则： ([\s\S]*) 同时，也可以用 “([\d\D]*)”、“([\w\W]*)” 来表示。 Web技术之家_www.waweb.cn 在文本文件里, 这个表达式可以匹配所有的英文 /[ -~]/ 您可能感兴趣的文章:比较详细Python正则表达式操作指南(re使用)Python中正则表达式的详细教程

参与评论您还未登录，请先登录后发表或查看评论

python正则表达式点号.匹配换行符

S_o_l_o_n的博客

02-23

3386

方式：通过flags参数，指定re.S即可，这样点号就可以匹配换行符了。例如：re.sub()函数，使flags=re.S即可，多个flag可以通过|连接。

python 匹配换行符_正则表达式以匹配跨平台换行符 - python

weixin_28755447的博客

12-23

1510

我的程序可以接受具有\ n，\ r \ n或\ r换行符的数据(例如Unix，PC或Mac样式)构造匹配任何编码的正则表达式的最佳方法是什么？另外，我可以在输入上使用Universal_newline支持，但是现在我很想看看正则表达式是什么。参考方案我想精确使用的正则表达式是"\r\n?|\n"。当我不关心一致性或空行时，我使用"[\r\n]+"，我想它会使我的程序的速度提高约0.2％。用大写字母...

Python正则-多行匹配

wdt3385的专栏

08-09

3742

一些regular的tips： 1 非贪婪flag >>> re.findall(r"a(\d+?)", "a23b") ['2'] >>> re.findall(r"a(\d+)", "a23b") ['23'] 注意比较这种情况： >>> re.findall(r"a(\d+)b", "a23b") ['23'] >>> r

你知道python正则表达式如何跨行匹配吗？

最新发布

Python栈_基的博客

01-15

1651

正则表达式在文本匹配、模式匹配、数据清洗、表单验证、日志分析等场景下有着广泛的应用，不管你是开发人员、测试人员，或者其他任何行业从业者，只要你有处理文档的需求，掌握一点正则表达式可能会让你的工作效率大大提升。

浅谈Python采集网页时正则表达式匹配换行符的问题

10-17

接下来，我们来详细探讨一下如何在Python中使用正则表达式匹配换行符，并且理解上述内容中的一些关键点。首先，要解决匹配换行符的问题，可以使用正则表达式中的多行模式。在Python的`re`模块中，可以通过`re....

正则表达式在网页爬虫中的应用及实例

在正则表达式中，基本语法包括字符类、重复限定符和边界匹配符等元素。其中，字符类用于指定匹配字符的范围，重复限定符可指定匹配规则的次数，边界匹配符则用于匹配特定位置的字符。正则表达式的灵活性和强大功能使...

Python脚本实现Zabbix多行日志监控过程解析

09-16

- `read_txt()`：读取指定日志文件，去除每行末尾的换行符，并返回日志行数组。 - `wirte_log()`：写入当前检查的行号到`logtxt`文件中，用于记录检查位置。 - `read_log()`：读取`logtxt`文件获取上次检查的行号。 ...

Python：使用正则表达式爬虫如何处理HTML代码中的换行？

fxalll的博客

07-26

1654

比如我们需要爬豆瓣二十条短评，使用正则表达式： <span class=“short”>(.*?)</span> 我们只能爬到17个，为什么呢？因为有的短评是带有换行的，正则表达式无法识别。如何让它识别呢？将(.*?)换为((?:.|\n)*?)就可以了！ <span class=“short”>((?:.|\n)*?)</span> ......

Python - 匹配多行文本块的正则表达式

迹忆客

06-14

3300

在讨论这个特定问题的解决方案之前，必须了解 regex（正则表达式）API 的不同方面，尤其是那些在整个解决方案中经常使用的方面。我们可以多次使用已编译的表达式，而不是为每个未编译的模式声明一个新字符串。匹配字符串中的模式并返回一个迭代器，该迭代器为所有非重叠匹配项提供 Match 对象。为了更好地理解正则表达式的解释，让我们按每个组对其进行分解，看看每个部分的作用。首先，匹配换行符，然后尽可能多次匹配 a-z 之间的字符。的一个显着优势是它允许 ^ 在每一行的开头而不是仅在字符串的开头搜索模式。

python正则匹配换行符,Python正则表达式在多个换行符上

weixin_33212915的博客

12-03

638

I have a string which contains multiple file paths, some of which contain arbitrary newlines within the path, and I want to parse the string using python so that only the filenames and extensions rema...

python 正则 换行符问题不支持（.*？）

丿灬安之若死

10-28

3610

有些换行符带着 (.*?)匹配不到就和很蛋疼后来认识了\s 和\S 是完全通配的意思，\s是指空白，包括空格、换行、tab缩进等所有的空白，而\S刚好相反这样一正一反下来，就表示所有的字符，完全的，一字不漏的。故而可以替换 p1 = r'(?<=<div class="ds_cr">)(.*?)(?=<div id="pageurl">)' #这样...

Python正则表达式的一些例子

u013951197的专栏

05-15

624

1 非贪婪flag >>> re.findall(r"a(\d+?)", "a23b") ['2'] >>> re.findall(r"a(\d+)", "a23b") ['23'] 注意比较这种情况： >>> re.findall(r"a(\d+)b", "a23b") ['23'] >>> re.finda

正则表达式实现跨行匹配

测试开发小记

10-21

6064

正则表达式（Regular expression）可用来检查文本中是否包含指定模式的字符串，通常是按行来处理（POSIX标准），因为.操作符通常不匹配换行符，如果要匹配多行怎么处理呢？本文介绍正则表达式跨行匹配实现方法。目录1. sed 命令删除多行2. Python正则表达式匹配多行① `re.DOTALL` 或者 `re.S` 参数② 表达式 `(.|\n|\r)*`③ 表达式 `[\s\S]*`④ 表达式 `(?s)` 1. sed 命令删除多行测试文档test.txt内容如下： start t

《Python进阶系列》十六：详解Python中的正则表达式

一起加油~

05-23

2060

正则表达式为高级的文本模式匹配、抽取、与/或文本形式的搜索和替换功能提供了基础。简单地说，正则表达式是一些由字符和特殊符号组成的字符串，它们描述了模式的重复或者表述多个字符，于是正则表达式能按照某种模式匹配一系列有相似特征的字符串。Python 通过标准库中的 re 模块来支持正则表达式。

Java正则表达式匹配回车换行多行