##关键词提取技术
-
TF(词频)-IDF(逆文档频率)
-
中文分词
-
分析非结构化内容(比如文本、视频和音频)框架 uima
-
淘宝的评论归纳
-
同义名词和形容词的合并
可选分方法比较多,使用相关系数计算两个词之间的相似度,或者使用SimRank,或者使用word2vec,我采用的第一种,简单关键是效果不错。其实,形容词的相似是有词典可以用的,但是直接用肯定是不行的。
- Latent Semantic Analysis
##关键词提取技术
TF(词频)-IDF(逆文档频率)
中文分词
分析非结构化内容(比如文本、视频和音频)框架 uima
淘宝的评论归纳
同义名词和形容词的合并
可选分方法比较多,使用相关系数计算两个词之间的相似度,或者使用SimRank,或者使用word2vec,我采用的第一种,简单关键是效果不错。其实,形容词的相似是有词典可以用的,但是直接用肯定是不行的。
转载于:https://my.oschina.net/u/2307114/blog/833491