结巴分词三种模式
支持3中分词模式:
1.全模式:把句子中的所有可以成词的词语都扫描出来,使用方法:jieba.cut(“字符串”, cut_all=True, HMM=False)
2.精确模式:试图将文本最精确的分开,适合于做文本分析。使用方法:jieba.cut(“字符串”, cut_all=False, HMM=True)
3.搜索引擎模式:在精确的基础上对长词进行进一步的切分。使用方法:jieba.cut_for_search(“字符串”, HMM=False)
函数jieba.cut接受三个参数,cut(sentence, cut_all=False, HMM=True)。
其中sentence–>输入文本,cut_all–>是否为全模式分词,HMM–>是否开启HMM进行中文分词。返回的是一个迭代器,使用for循环得到分词后得到的每一个词语。
代码演示
import sys
import jieba
import jieba.analyse
reload(sys)
sys.setdefaultencoding('utf-8')
data_str='可你觉得孤独又能怎么样啊?你觉得孤独也不过是心情更差而已嘛。以前没什么人跟你说话,你觉得孤独,也还是没人跟你说话啊。'
精准匹配
print '/'.join(jieba.cut(data_str,cut_all=False,HMM=True))
运行结果: