中文分词组件

最新推荐文章于 2017-06-10 00:21:00 发布

bbzz2

最新推荐文章于 2017-06-10 00:21:00 发布

阅读量642

点赞数 1

分类专栏： NLP

NLP 专栏收录该内容

28 篇文章 1 订阅

订阅专栏

1.下载mecab-chinesedic-binary，放在MeCab bin目录下,具体参考：详细详细可参考《用MeCab打造一套实用的中文分词系统》

cmd运行命令：mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000

其中，wiki.zh.text.jian是一个中文数据集，wiki.zh.text.jian.seg为分割后文本。

2.使用中文分词工具jieBa

#encoding=utf-8
import jieba
#全模式
text = "我来到北京清华大学"
seg_list = jieba.cut(text, cut_all=True)
print u"[全模式]: ", "/ ".join(seg_list)
#精确模式
seg_list = jieba.cut(text, cut_all=False)
print u"[精确模式]: ", "/ ".join(seg_list)
#默认是精确模式
seg_list = jieba.cut(text)
print u"[默认模式]: ", "/ ".join(seg_list)
#新词识别 “杭研”并没有在词典中,但是也被Viterbi算法识别出来了
seg_list = jieba.cut("他来到了网易杭研大厦")
print u"[新词识别]: ", "/ ".join(seg_list)
#搜索引擎模式
seg_list = jieba.cut_for_search(text)
print u"[搜索引擎模式]: ", "/ ".join(seg_list)

#当然也可以用自己定义的词典

如：

#导入自定义词典
jieba.load_userdict("dict.txt")

#读取文件并保存

从BaiduSpider文件中读取0001.txt~0204.txt文件，分别进行分词处理再保存。

[python]view plaincopy 
     
 
     
 #encoding=utf-8  
 import sys  
 import re  
 import codecs  
 import os  
 import shutil  
 import jieba  
 import jieba.analyse  
   
 #导入自定义词典  
 jieba.load_userdict("dict_baidu.txt")  
   
 #Read file and cut  
 def read_file_cut():  
     #create path  
     path = "BaiduSpider\\"  
     respath = "BaiduSpider_Result\\"  
     if os.path.isdir(respath):  
         shutil.rmtree(respath, True)  
     os.makedirs(respath)  
   
     num = 1  
     while num<=204:  
         name = "%04d" % num   
         fileName = path + str(name) + ".txt"  
         resName = respath + str(name) + ".txt"  
         source = open(fileName, 'r')  
         if os.path.exists(resName):  
             os.remove(resName)  
         result = codecs.open(resName, 'w', 'utf-8')  
         line = source.readline()  
         line = line.rstrip('\n')  
           
         while line!="":  
             line = unicode(line, "utf-8")  
             seglist = jieba.cut(line,cut_all=False)  #精确模式  
             output = ' '.join(list(seglist))         #空格拼接  
             print output  
             result.write(output + '\r\n')  
             line = source.readline()  
         else:  
             print 'End file: ' + str(num)  
             source.close()  
             result.close()  
         num = num + 1  
     else:  
         print 'End All'  
   
 #Run function  
 if __name__ == '__main__':  
     read_file_cut()