python读取文本中的英文_利用Python将文本中的中英文分离方法

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ascii识别。

s = "china's legend holdings will split its several business arms to go public on stock markets, the group's president zhu linan said on tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"

result = "".join(i for i in s if ord(i) < 256)

print(result)

out:

china's legend holdings will split its several business arms to go public on stock markets, the group's president zhu linan said on tuesday.

2、unicode编码识别

import re

s = "china's legend holdings will split its several business arms to go public on stock markets, the group's president zhu linan said on tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"

uncn = re.compile(r'[\u0061-\u007a,\u0020]')

e

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值