python去除html标签的几种方法

最新推荐文章于 2023-03-05 18:49:21 发布

dian19881021

最新推荐文章于 2023-03-05 18:49:21 发布

阅读量879

点赞数 1

文章标签： python

原文链接：http://www.cnblogs.com/zhangyafei/p/10285378.html

版权

import re
from bs4 import BeautifulSoup
from lxml import etree

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

# 法一
pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)
 
# 法二
soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

# 法三
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))


# 你好哈哈大家好
# 你好哈哈大家好
# 你好哈哈大家好

转载于:https://www.cnblogs.com/zhangyafei/p/10285378.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dian19881021

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python去除html标签的几种方法

import refrom bs4 import BeautifulSoupfrom lxml import etreehtml = '你好 哈哈大家好'# 法一pattern = re.compile(r'&l...
复制链接

扫一扫