自然语言处理
camelfire
人活在世界强加给你的观念当中,你或许赞同或许反对,但却无对错之分,人生也未必能有多大的意义,引导你的不过是你心里认同的却在别人眼里未必正确的感觉罢了。一个不纯粹的理想主义者、怀疑论者,理性重于感性,却又认为感性才是人的本质。认同科学对人类的重大影响,却对在科学光环下人类的未来心存疑虑。
展开
-
使用nlpir分词工具时字符编码问题
在进行中文自然语言处理时,首先要注意字符编码的转换问题。我在使用nlpir分词工具时遇到如下问题: 句子1:u'不断深化中缅睦邻友好和互利合作,符合两国和两国人民的根本利益。' 句子2:'不断深化中缅睦邻友好和互利合作,符合两国和两国人民的根本利益。' 两个句子的区别就在于句子1是解码后的unicode形式,句子2是utf-8编码,nlpir工具支持多种编码方式,但并不支持解码后的unico原创 2016-03-19 20:54:09 · 1374 阅读 · 0 评论 -
以文件为单位的分句、分词python封装脚本
利用nlpir进行分词时,需要考虑以下两个问题: 1、如何分句、分段 2、如何表示分词结果 在网上找了几个分句的脚本,感觉都有问题,就只好自己写了,虽然比较简单,但如果要做到面面俱到还是需要仔细考虑,标注采用xml文件,包括article、paragraph、sentence三层结构,代码已注释,大家自己看吧,这个脚本经过了几次测试,应该可以应付大多数正常的文本文件,如果有问题,欢迎反馈。原创 2016-03-20 15:52:14 · 658 阅读 · 0 评论 -
sanford ner
按照如下语句直接调用ner模块识别时报如下错误 >>> from nltk.tag.stanford import NERTagger >>> st = NERTagger('stanford-ner-2014-06-16/classifiers/english.all.3class.distsim.crf.ser.gz','stanford-ner-2014-06-16/stanford-n原创 2016-03-22 19:59:04 · 758 阅读 · 0 评论