jieba
请叫我算术嘉
快手HDFS
展开
-
jieba--做最好用的中文分词组件详解【1】(精确模式、全模式、搜索模式分词)
写在最前面: 今天只做基础使用介绍,关于分词使用的算法、模型会在下面的博客详细介绍。 特点:jieba是一款中文分词组件,支持python2,3 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于...原创 2018-11-16 18:16:00 · 21458 阅读 · 0 评论 -
jieba--做最好用的中文分词组件详解【2】(载入词典与调整词典)
写在最前面:今天有时间,再讲一讲jieba分词的词典。 载入词典: 首先,这是原来的分词方式及其结果:开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率import jiebatest_sent = ( "李小福是创新办主任也是云计算方面的专家\n" "什么是...原创 2018-11-16 21:50:45 · 23374 阅读 · 0 评论 -
jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)
写在最前面: 这回真的是最后一篇关于jieba的用法介绍了 关键词提取所使用停止词(停止词)文本语料库切换成自定义语料库的路径 这是使用自带的停用词语料库,使用TF-IDF算法提取20个关键词。import jiebaimport jieba.analysejieba.load_userdict("userdict.txt")jieba.analyse.set...原创 2018-11-18 00:07:14 · 15148 阅读 · 0 评论