Python_re_[\u4e00-\u9fa5]+_提取所有中文文本

简介

\u4e00\u9fa5unicode 编码,正好是中文编码开头和结尾对应的数值。

[\u4e00-\u9fa5]+re.findall 中可用来找出文本中所有中文。

unicode 编码转换

>>> '\u4e00'.encode().decode()  #unicode码转换成字符
'一'
>>> '\u9fa5'.encode().decode()
'龥'

re.findall

pic1

>>> import re

>>> re.findall(r'[a-z]+', 'which foot or hand fell fastest')
['which', 'foot', 'or', 'hand', 'fell', 'fastest']

>>> re.findall(r'[0-9]', 'qfqefqe')
[]

re 中 [] +

[],用于表示一个字符集合。 -,在 [] 中表示字符范围。
pic2
+,对它前面的匹配式重复1到无数次。
pic3

re.S

pic4

[\u4e00-\u9fa5]+ 提取中文案例

>>> myText = '里面有我最宝贵的私家逆袭经验,全都毫无保留分享给你,比如优质书单和阅读方法推荐,理财经验技巧分享,哑巴英语变成英语达人的秘诀、自律长达10年的独门诀窍、连续高效学习工作10个小时的专注技巧…… 我还会每天分享一篇优质成长干货,如果你不甘于平庸,我就在那边等你,陪你一起精进噢~  分享35个超炫酷好玩的网站: 有哪些能玩上一天的网站? 推荐让你能轻松消遣时间的良心app: 你手机最消遣时间的软件是什么? 强烈推荐35个让你颜值爆表的小技巧: 如何在半年内提高颜值?'
>>> cut_text = re.findall('[\u4e00-\u9fa5]+', myText, re.S)
>>> cut_text
['里面有我最宝贵的私家逆袭经验', '全都毫无保留分享给你', '比如优质书单和阅读方法推荐', '理财经验技巧分享', '哑巴英语变成英语达人的秘诀', '自律长达', '年的独门诀窍', '连续高效学习工作', '个小时的专注技巧', '我还会每天分享一篇优质成长干货', '如果你不甘于平庸', '我就在那边等你', '陪你一起精进噢', '分享', '个超炫酷好玩的网站', '有哪些能玩上一天的网站', '推荐让你能轻松消遣时间的良心', '你手机最消遣时间的软件是什么', '强烈推荐', '个让你颜值爆表的小技巧', '如何在半年内提高颜值']
>>> ' '.join(cut_text)
'里面有我最宝贵的私家逆袭经验 全都毫无保留分享给你 比如优质书单和阅读方法推荐 理财经验技巧分享 哑巴英语变成英语达人的秘诀 自律长达 年的独门诀窍 连续高效学习工作 个小时的专注技巧 我还会每天分享一篇优质成长干货 如果你不甘于平庸 我就在那边等你 陪你一起精进噢 分享 个超炫酷好玩的网站 有哪些能玩上一天的网站 推荐让你能轻松消遣时间的良心 你手机最消遣时间的软件是什么 强烈推荐 个让你颜值爆表的小技巧 如何在半年内提高颜值'
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值