[NLP]文本去除非汉字字符

最新推荐文章于 2021-10-27 15:37:37 发布

weixin_34203832

最新推荐文章于 2021-10-27 15:37:37 发布

阅读量351

点赞数

文章标签：人工智能 r语言

原文链接：http://www.cnblogs.com/Sean-le/p/4791441.html

版权

最近有个需求就是去除一个文本里面所有的非汉字字符。

unicide的汉字有个范围u4e00-u9fa5。所以这个范围内的留下来就可以了。

1 blog=u"【雅虎开始提示Chrome用户“升级”到Firefox】http://t.cn/RzHTFF5 国外有关浏览器、搜索引擎那些事儿，也是刀光剑影，恩怨江湖啊！@2gua ，你说尼？[挖鼻屎]"
2 blog_new = u""
3 for i in range(0,len(blog)):
4     if(blog[i]>=u'\u4e00' and blog[i]<=u'\u9fa5'):
5         blog_new = blog_new+blog[i]
6         
7 print blog_new

参考：http://ju.outofmemory.cn/entry/53571

转载于:https://www.cnblogs.com/Sean-le/p/4791441.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34203832

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[NLP]文本去除非汉字字符

最近有个需求就是去除一个文本里面所有的非汉字字符。unicide的汉字有个范围u4e00-u9fa5。所以这个范围内的留下来就可以了。1 blog=u"【雅虎开始提示Chrome用户“升级”到Firefox】http://t.cn/RzHTFF5 国外有关浏览器、搜索引擎那些事儿，也是刀光剑影，恩怨江湖啊！@2gua ，你说尼？[挖鼻屎]"2 blog_new = u""3 f...
复制链接

扫一扫