Python去除html标签的几种方法

一行书辞

已于 2023-07-18 13:54:41 修改

阅读量1.6w

点赞数 11

分类专栏：不得不学的Python教程文章标签： python html 正则表达式爬虫

于 2021-11-12 11:32:24 首次发布

本文链接：https://blog.csdn.net/ares_beyong/article/details/121284781

版权

9 篇文章 1 订阅

订阅专栏

最近小说看得比较多，但是很多小说网站都存在各种小广告，看起来很不方便，所以就自己写了个小程序，把小说都爬下来，然后搭个自己喜欢web页面来看。

在爬取过程中没有出现太大的问题，只有在清洗数据时，发现小说文本中混杂HTML标签，所以就需要对标签进行清洗。

我自己尝试了字符串的处理方式，正则，还有lxml等方式来处理这个问题，现在记录一下使用方式。

我们使用下面这个字符串举例说明，内容为一段html代码。需要对这段字符串进行处理，提取文本

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

import re

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

输出结果：

你好哈哈大家好

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

输出结果：

你好哈哈大家好

from lxml import etree

response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))

输出结果：

你好哈哈大家好

关注

专栏目录