1. 中文分词算法
- 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
- 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
- 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法
1.1 工具
2. TextRank关键词抽取
- 将待抽取关键词的文本进行分词
- 以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图
- 计算图中节点的PageRank,注意是无向带权图
- 论文: TextRank: Bringing Order into Texts
2.1 工具
- jieba - 中文
- textrank4zh - 中文
- spaCy - 英文
- nltk - 英文
未完待续…