1.先用es-ik进行文章分词。
2.得到两篇文章的词频向量
3.计算两个向量的余弦相似度,值越大就表示越相似。
package com.xq.algorithm;
import java.util.ArrayList;
import java.util.LinkedHashMap;
import java.util.List;
import java.util.Map;
/**
Title:
Description: 余弦获取文章相似性
@createDate:2013-8-26
@author xq
@version 1.0
*/
public class CosineSimilarAlgorithm {
/**
*
* @Title: cosSimilarityByFile
* @Description: 获取两个文件相似性
* @param @param firstFile
* @param @param secondFile
* @param @return
* @return Double
* @throws
*/
public static Double cosSimilarityByFile(String firstFile,String secondFile){
try{
Map> firstTfMap=TfIdfAlgorithm.wordSegCount(firstFile);