(方法总结)Python 从字符串中快速提取中文---三大法

已知字符串 a_str = '404 not found 张三 23 深圳', 每个词中间都是空格, 要求只输出字符串中的中文?


方法一:

  • 使用正则表达式: \w+, re.A即指ASCII编码, 可匹配除中文以外的单词字符, 得到新列表
  • 利用 去同存异 的方法
a_str = '404 not found 张三 23 深圳'

import re

a_list = a_str.split(" ")   # ['404', 'not', 'found', '张三', '23', '深圳']

res = re.findall(r'\w+', a_str, re.A)   # ['404', 'not', 'found', '23']

new_list = []
for i in a_list:
    if i not in res:
        new_list.append(i)

print(" ".join(new_list))

# 输出结果
张三 深圳

方法二:

  • 正则表达式: [\u4e00-\u9fa5], 只匹配汉字
  • 依据汉字的Unicode码表: u4e00~u9fa5, 即代表了符合汉字GB18030规范的字符集
import re

a_str = '404 not found 张三 23 深圳'

a_list = re.findall(r'[\u4e00-\u9fa5]', a_str)

print(a_list)

# 输出结果
['张', '三', '深', '圳']

方法三:

  • 正则表达式: [^\x00-\xff], 只匹配非ASCII码字符(也称双字节字符), 利用汉字为: 双字节字符的原理
import re

a_str = '404 not found 张三 23 深圳'

a_list = re.findall(r'[^\x00-\xff]', a_str)

print(a_list)

# 输出结果
['张', '三', '深', '圳']

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值