分词技术:
1.统计分词法(最好的,按词频)
a.nGram
b.隐马尔可夫,HMM
c 条件随机场
机械分词法
a正向最大分类法(从左到右)
2逆向最大匹配法(从右到左)
c:最少切分(
Tf idf 计算词的重要性
import jieba
import jieba.posseg as jp #lcut cut 分词,获取词性 i.flag 词性 ,i.word 词
#cut(字符串,cut_all=是否切出所有可能的词) #返回一个迭代器
#lcut(字符串,cut_all=是否切出所有可能的词) #返回一个分词列表
#cut_for_search #相当于 cut 或 lcut 的cut_all =True , 对长词再分
#jieba.add_word(词,词频) #像字典中加入新词
#jieba.load_userdict(文本文件名) #添加字典
#文本文件 格式
#真特刘 2000
#你好 200
#jieba.del_word(词) #删除字典的词