正则表达式re.sub()常见问题及解决(换行匹配+标签清洗)

最新推荐文章于 2025-09-02 00:04:43 发布

原创最新推荐文章于 2025-09-02 00:04:43 发布 · 1.3w 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式

python 专栏收录该内容

6 篇文章

订阅专栏

本文围绕Python的re.sub()方法展开。在网页数据爬取与清洗时，使用该方法去除标签遇到诸多问题，如引号匹配错误、换行符影响匹配、正则表达式贪婪特性导致匹配异常等，通过将外层引号改为三引号、解决换行问题、使用非贪婪匹配等方法最终解决问题。

首先大家都知道re.sub()简单用法:

#re.sub()会替换满足条件的所有式子，返回被替换后的文本

text = "阅读量 9999, 点赞量 7788"
ret_sub = re.sub(r'\d+', '8800', text)

结果：
阅读量 8800, 点赞量 8800

但是有陷阱:这个例子之所以匹配全部成功是因为它所检查的是'\d',也就是数字格式，遇到不是数字的就停止了

现在做另一个例子，我们找了一个网页准备爬它的数据:

今天这个例子先直接复制下来，可以看到数据很乱，嵌套着很多标签，我们接下来要清洗这些数据，那就是把这些标签去掉，只留文字，在说sub方法之前还有一个问题：我第一次粘贴文本给test赋值时，代码为:

text = "<div class="job-detail"><p>1.通过爬虫技术，实现PMS系统与多个销售平台（airbnb、途家、美团榛果等）的订单房态同步、自动发房、价格调整工作；</p>
<p>工作职责:</p><p>2.完成智能定价所需要的数据爬取及数据分析等工作；</p>
<p>3.完成IM针对房源咨询的自动回复的开发工作。</p>
<p><br></p>
<p>任职资格:</p>
<p>1、Python基础良好，2-4年相关岗位工作经验；</p>
<p>2、大学全日本制本科及以上学历；</p>
<p>3、掌握网络爬虫基本类库使用，了解爬虫架构且熟练使用至少一种爬虫框架（Scrapy、PySpider等）进行开发，了解反爬虫、反反爬机制；</p>
<p>4、熟悉WebDriver、Selenium、PhantomJS等常用工具；</p>
<p>5、具有一定前端基础，拥有分析结构化和非结构化数据能力；</p>
<p>6、掌握正则表达式、搜索策略、算法、数据聚类以及重组并可以独立完成对抓取数据进行信息提取、去重和清洗；</p>
<p>7、熟练使用<a class="jd-ad" href="https://kaiwu.lagou.com/course/courseInfo.htm?courseId=1&amp;sid=3-MySQL-1557236458934" target="_blank" rel="nofollow" data-ad="3" data-lg-tj-id="1kcw" data-lg-tj-no="idnull" data-lg-tj-cid="31557236458934" data-lg-tj-content="MySQL">MySQL</a><a class="jd-ad" href="https://kaiwu.lagou.com/course/courseInfo.htm?courseId=1&amp;sid=3-%E6%95%B0%E6%8D%AE%E5%BA%93-1557236458934" target="_blank" rel="nofollow" data-ad="3" data-lg-tj-id="1kcw" data-lg-tj-no="idnull" data-lg-tj-cid="31557236458934" data-lg-tj-content="数据库">数据库</a>，了解非关系型数据库（<a class="jd-ad" href="https://kaiwu.lagou.com/course/courseInfo.htm?courseId=1&amp;sid=3-Redis-1557236458934" target="_blank" rel="nofollow" data-ad="3" data-lg-tj-id="1kcw" data-lg-tj-no="idnull" data-lg-tj-cid="31557236458934" data-lg-tj-content="Redis">Redis</a>、MongoDB等）；</p>
<p>8、了解Scrapy+Redis<a class="jd-ad" href="https://kaiwu.lagou.com/course/courseInfo.htm?courseId=1&amp;sid=3-%E5%88%86%E5%B8%83%E5%BC%8F-1557236458934" target="_blank" rel="nofollow" data-ad="3" data-lg-tj-id="1kcw" data-lg-tj-no="idnull" data-lg-tj-cid="31557236458934" data-lg-tj-content="分布式">分布式</a>策略为加分项。</p>
</div>"

结果疯狂报错，我？？？？怎么粘贴个文本还有错了，百度无果，突然想到引号匹配的问题:test字符串用双引号包裹，div标签里也有双引号，直接配对，导致错误，解决方法就是要么把文本里的双引号转义，要么改外面包裹的双引号，标签很多，可想有多麻烦，直接把外层双引号改为三引号，问题解决！接下来说正题:

要去掉标签，可以想到那就用re.sub()方法，用空字符串去替代每个标签，初始想法：

text = re.sub(r'<.*>', "", text)

这样做了之后可以发现结果是全空，接下来又加了

text = re.sub(r"^<.*>", "", text)

发现结果是只过滤掉了第一个标签，接下来的数据全没有动，百度了一下，发现原来是换行出了问题，匹配到第一个<h后，‘.’对'\n'没辙，所以就直接停止了。得，先解决换行问题：

text = re.sub(r'\n+', '', text)

接下来的数据就没有换行了，但是结果还不正确，又出现了全空，百度了也没有结果，突然想到以前做爬虫常用的正则是:*后面跟?，继续百度，找到了问题所在：

.*具有贪婪的性质，首先匹配到不能匹配为止，根据后面的正则表达式，会进行回溯。.*？则相反，一个匹配以后，就往下进行，所以不会进行回溯，具有最小匹配的性质。

我们虽然没有换行符了，但是.*条件一直满足，一直贪婪下去，则一直匹配到了末尾，而?则成为非贪婪，匹配到了一个就停止继续下一个匹配。那么改了之后的代码:

text = '''<div class="job-detail"><p>1.通过爬虫技术，实现PMS系统与多个销售平台（airbnb、途家、美团榛果等）的订单房态同步、自动发房、价格调整工作；</p>
<p>工作职责:</p><p>2.完成智能定价所需要的数据爬取及数据分析等工作；</p>
<p>3.完成IM针对房源咨询的自动回复的开发工作。</p>
<p><br></p>
<p>任职资格:</p>
<p>1、Python基础良好，2-4年相关岗位工作经验；</p>
<p>2、大学全日本制本科及以上学历；</p>
<p>3、掌握网络爬虫基本类库使用，了解爬虫架构且熟练使用至少一种爬虫框架（Scrapy、PySpider等）进行开发，了解反爬虫、反反爬机制；</p>
<p>4、熟悉WebDriver、Selenium、PhantomJS等常用工具；</p>
<p>5、具有一定前端基础，拥有分析结构化和非结构化数据能力；</p>
<p>6、掌握正则表达式、搜索策略、算法、数据聚类以及重组并可以独立完成对抓取数据进行信息提取、去重和清洗；</p>
<p>7、熟练使用<a class="jd-ad" href="https://kaiwu.lagou.com/course/courseInfo.htm?courseId=1&amp;sid=3-MySQL-1557236458934" target="_blank" rel="nofollow" data-ad="3" data-lg-tj-id="1kcw" data-lg-tj-no="idnull" data-lg-tj-cid="31557236458934" data-lg-tj-content="MySQL">MySQL</a><a class="jd-ad" href="https://kaiwu.lagou.com/course/courseInfo.htm?courseId=1&amp;sid=3-%E6%95%B0%E6%8D%AE%E5%BA%93-1557236458934" target="_blank" rel="nofollow" data-ad="3" data-lg-tj-id="1kcw" data-lg-tj-no="idnull" data-lg-tj-cid="31557236458934" data-lg-tj-content="数据库">数据库</a>，了解非关系型数据库（<a class="jd-ad" href="https://kaiwu.lagou.com/course/courseInfo.htm?courseId=1&amp;sid=3-Redis-1557236458934" target="_blank" rel="nofollow" data-ad="3" data-lg-tj-id="1kcw" data-lg-tj-no="idnull" data-lg-tj-cid="31557236458934" data-lg-tj-content="Redis">Redis</a>、MongoDB等）；</p>
<p>8、了解Scrapy+Redis<a class="jd-ad" href="https://kaiwu.lagou.com/course/courseInfo.htm?courseId=1&amp;sid=3-%E5%88%86%E5%B8%83%E5%BC%8F-1557236458934" target="_blank" rel="nofollow" data-ad="3" data-lg-tj-id="1kcw" data-lg-tj-no="idnull" data-lg-tj-cid="31557236458934" data-lg-tj-content="分布式">分布式</a>策略为加分项。</p>
</div>'''

text = re.sub(r'\n+', '', text)
print(text + '\n')
ret = re.sub(r"<.*?>", "", text)
print(ret)

运行结果：

问题解决！赏心悦目！