jieba | snownlp | |
---|---|---|
star | 10k+ | 2k+ |
分词模式 | 精确模式:试图最精确分词;全模式:可以成词都扫描,但不能解决歧义;搜索引擎模式:在精确模式基础上再划分长词,用于搜索引擎分词; | 只处理unicode编码 |
词性标注 | 有 | 有 |
关键词抽取 | TF-IDF | 有 |
情感分析 | 无 | 有 |
文本相似度计算 | 无 | BM25 |
- jieba
基于前缀词典识别词汇,生成句子中所有可能成词但DAG有向无环图
DP查找最大概率路径,找出基于词频但最大切分组合
对于未登陆词,基于汉字成词能力的HMM隐马尔可夫模型,Viterbi算法
jieba.cut( str, cut_all, hmm )
jieba.cut_for_search( str, hmm ) // 用于搜索引擎分词,粒度较细
- snownlp