使用python提取富文本中纯字符串内容

最新推荐文章于 2024-07-31 14:30:10 发布

Winter_Sun灬

最新推荐文章于 2024-07-31 14:30:10 发布

阅读量930

点赞数

分类专栏： python 富文本字符串文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33191599/article/details/126988562

版权

python 同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

话不多说，直接上代码

import html
import re
import emoji

content = "你的富文本字符串"
htmlContent = html.unescape(content)
regex = r'\>.*?\<'
listAll = re.findall(regex, htmlContent)
listToSave = [i[1:-1] for i in listAll if i != '><' and len(i) > 2]
strContent = '\n'.join(listToSave)
# 过滤掉表情
strContent = filter_emoji(strContent)
if strContent != "":
    listRichTestInfo.append((ticketId, fieldKey, '', strContent))

filter_emoji 函数的实现方式，为了把表情字符替换为空

# filter_emoji 函数的实现方式，为了把表情字符替换为空
def filter_emoji(desstr, restr=''):
    # 过滤表情
    try:
        co = re.compile(u'[\U00010000-\U0010ffff]')
    except re.error:
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return co.sub(restr, desstr)

其实代码就这么多，欢迎大家来沟通交流

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用python提取富文本中纯字符串内容

提取富文本中的字符串
复制链接

扫一扫

专栏目录

Winter_Sun灬 CSDN认证博客专家 CSDN认证企业博客

码龄9年

33: 原创

27万+: 周排名

8万+: 总排名

7万+: 访问

: 等级

697: 积分

77: 粉丝

113: 获赞

7: 评论

148: 收藏

私信

关注

热门文章

分类专栏

爬虫知识点
爬虫实战
python 6篇
mysql 7篇
linux 3篇
docker 3篇
opwnwrt 1篇
富文本 1篇
字符串 1篇
netstat 1篇
ES 2篇
golang 1篇
12
Markdown写博客
C++ 7篇

最新评论

mysql取每个分组内前n条数据
Winter_Sun灬回复 in the way: [code=sql] SET @tmpAddress = ""; SET @rank = 1; SELECT uName, sex, salary, address FROM ( SELECT uName, sex, salary, address, IF(@tmpAddress = address, @rank:=@rank + 1, @rank:=1) as new_rank, @tmpAddress := address AS tmpAddress FROM (SELECT *, @tmpAddress := address AS aa FROM person ORDER BY address, salary DESC) tb_a ) tb WHERE new_rank <= 3; [/code]
mysql取每个分组内前n条数据
Winter_Sun灬回复 in the way: 您说的问题确实存在，我刚刚已经测试过了，发现问题出现在sql的执行过程中，原因是因为两个变量没有初始化导致的，可以提前对两个变量进行初始化来解决这个问题。至于具体原因，如果您有兴趣可以研究一下，随时交流
mysql取每个分组内前n条数据
in the way: SELECT uName, sex, salary, address, IF(@tmpAddress = address, @rank:=@rank + 1, @rank:=1) as new_rank, @tmpAddress := address AS tmpAddress FROM (SELECT * FROM person ORDER BY address, salary DESC) tb_a 在一个新窗口第一遍执行sql, new_rank都是1
mysql取每个分组内前n条数据
Winter_Sun灬回复 strange先生: 代码已经更新并测试过了，并且文章最后附上了测试数据插入语句，以便大家测试和了解
mysql取每个分组内前n条数据
Winter_Sun灬回复 strange先生: 这位朋友你好，感谢你对这篇文章的认可，至于你好奇的地方确实是存在问题的，之前写的时候疏漏了，这里应该是对已经排好序的数据做操作，才能保证变量计数的准确性，这一点我会立马纠正，感谢你的提醒

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。