TF-IDF:提取关键词
1、TF-IDF介绍
2、优点
TF-IDF算法的优点是简单快速,结果比较符合实际情况。
3、缺点:
单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。
(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)
cos相似度:相似文章
1、cos介绍及例子
相似图片搜索
1、颜色分布直方图
2、内容特征法(大津法)