余弦相似性获取文章相似度的java实现

转自:http://www.chepoo.com/cosine-similarity-java-implementation.html

文章相似度的实现可以用余弦相似性实现。余弦定理可参考:
余弦定理

字符串之间的相似度实现:字符串相似度算法(编辑距离)java实现

我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。

余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫”余弦相似性”。

阮一峰老师写的一篇博文简单明了,大家可以看看:TF-IDF与余弦相似性的应用(二):找出相似文章

实现该算法思路:
1.先用es-ik进行文章分词。
2.得到两篇文章的词频向量
3.计算两个向量的余弦相似度,值越大就表示越相似。

相关代码实现已经github上。具体地址为:https://github.com/awnuxkjy/recommend-system

package com.xq.algorithm;

import java.util.ArrayList;
import java.util.LinkedHashMap;
import java.util.List;
import java.util.Map;

/**
 * 
 * <p>Title:</p>
 * <p>Description: 余弦获取文章相似性
 * </p>
 * @createDate:2013-8-26
 * @author xq
 * @version 1.0
 */
public class CosineSimilarAlgorithm {

	/**
	 * 
	* @Title: cosSimilarityByFile
	* @Description: 获取两个文件相似性
	* @param @param firstFile
	* @param @param secondFile
	* @param @return    
	* @return Double   
	* @throws
	 */
	public static Double cosSimilarityByFile(String firstFile,String secondFile){
		try{
			Map<String, Map<String, Integer>> firstTfMap=TfIdfAlgorithm.wordSegCount(firstFile);
			Map<String, Map<String, Integer>> secondTfMap=TfIdfAlgorithm.wordSegCount(secondFile);
			if(firstTfMap==null || firstTfMap.size()==0){
				throw new IllegalArgumentException("firstFile not found or firstFile is empty! ");
			}
			if(secondTfMap==null || secondTfMap.size()==0){
				throw new IllegalArgumentException("secondFile not found or secondFile is empty! ");
			}
			Map<String,Integer> firstWords=firstTfMap.get(firstFile);
			Map<String,Integer> secondWords=secondTfMap.get(secondFile);
			if(firstWords.size()<secondWords.size()){
				Map<String, Integer> temp=firstWords;
				firstWords=secondWords;
				secondWords=temp;
			}
			return calculateCos((LinkedHashMap<String, Integer>)firstWords, (LinkedHashMap<String, Integer>)secondWords);
			
		}catch(Exception e){
			e.printStackTrace();
		}
		return 0d;
	}
	
	/**
	 * 
	* @Title: cosSimilarityByString
	* @Description: 得到两个字符串的相似性
	* @param @param first
	* @param @param second
	* @param @return    
	* @return Double   
	* @throws
	 */
	public static Double cosSimilarityByString(String first,String second){
		try{
			Map<String, Integer> firstTfMap=TfIdfAlgorithm.segStr(first);
			Map<String, Integer> secondTfMap=TfIdfAlgorithm.segStr(second);
			if(firstTfMap.size()<secondTfMap.size()){
				Map<String, Integer> temp=firstTfMap;
				firstTfMap=secondTfMap;
				secondTfMap=temp;
			}
			return calculateCos((LinkedHashMap<String, Integer>)firstTfMap, (LinkedHashMap<String, Integer>)secondTfMap);
			
		}catch(Exception e){
			e.printStackTrace();
		}
		return 0d;
	}

	/**
	 * 
	* @Title: calculateCos
	* @Description: 计算余弦相似性
	* @param @param first
	* @param @param second
	* @param @return    
	* @return Double   
	* @throws
	 */
	private static Double calculateCos(LinkedHashMap<String, Integer> first,LinkedHashMap<String, Integer> second){
		
		List<Map.Entry<String, Integer>> firstList = new ArrayList<Map.Entry<String, Integer>>(first.entrySet());
		List<Map.Entry<String, Integer>> secondList = new ArrayList<Map.Entry<String, Integer>>(second.entrySet());
		//计算相似度  
        double vectorFirstModulo = 0.00;//向量1的模  
        double vectorSecondModulo = 0.00;//向量2的模  
        double vectorProduct = 0.00; //向量积  
        int secondSize=second.size();
		for(int i=0;i<firstList.size();i++){
			if(i<secondSize){
				vectorSecondModulo+=secondList.get(i).getValue().doubleValue()*secondList.get(i).getValue().doubleValue();
				vectorProduct+=firstList.get(i).getValue().doubleValue()*secondList.get(i).getValue().doubleValue();
			}
			vectorFirstModulo+=firstList.get(i).getValue().doubleValue()*firstList.get(i).getValue().doubleValue();
		}
	   return vectorProduct/(Math.sqrt(vectorFirstModulo)*Math.sqrt(vectorSecondModulo));
	}
	
	public static void main(String[] args){
		Double result=cosSimilarityByString("中国是超级大国",
				"中国是世界超级大国。");
		System.out.println(result);
	}
}



文固定链接: http://www.chepoo.com/cosine-similarity-java-implementation.html | IT技术精华网

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 搜图相似性是指利用计算机算法和技术来比较和匹配图像之间的相似程度。在Java编程语言中,可以使用不同的方法来实现搜图相似性。 一种常见的方法是使用特征提取和特征匹配技术。特征提取是指从待比较图像中提取出有代表性的特征,常用的特征包括颜色、纹理、形状等。特征匹配则是通过比较两个图像的特征向量来确定它们之间的相似度。 在Java中,可以利用开源库如OpenCV来实现图像的特征提取和匹配。OpenCV是一个功能强大的图像处理库,它提供了许多图像处理和模式识别的函数和算法。通过使用OpenCV,我们可以使用Java语言来读取、处理、比较图像。 另一种方法是通过计算图像的哈希值来比较相似性。哈希值是根据图像内容生成的一串短字符串,它能够对图像进行唯一标识。可以通过计算图像的哈希值来比较图像之间的相似度。在Java中,可以使用如PHash等算法来计算图像的哈希值。 总的来说,搜图相似性实现Java中可以通过特征提取和特征匹配,以及计算哈希值等方法来实现。这些方法可以根据不同的需求和场景来选择和使用,从而实现对图像相似性的检索和识别。 ### 回答2: 搜图相似性是一个基于Java编程语言开发的技术,用于在大量图像中寻找与目标图像最相似的图像。这项技术包括图像特征提取和相似度计算两个主要步骤。 首先,图像特征提取是通过将图像转换为一组数值特征来进行的。常用的特征提取方法包括颜色直方图、纹理特征、边缘特征等。在Java中,可以利用各种图像处理库和算法来提取图像的特征,例如使用OpenCV库中的函数来计算颜色直方图,使用Gabor滤波器来提取纹理特征等。 然后,相似度计算是通过比较图像特征之间的差异来判断它们之间的相似度。常用的相似度计算方法有欧氏距离、余弦相似度、结构相似性等。在Java中,可以使用各种数学库和函数来进行相似度计算,例如使用Apache Commons Math库中的函数来计算欧氏距离,使用公式来计算余弦相似度等。 在搜图相似性的实际应用中,可以根据需求选择适合的图像特征提取方法和相似度计算方法,以及相应的Java库和算法进行开发。同时,为了提高搜索效率,可以使用一些优化算法和数据结构,例如使用K-d树进行快速最近邻搜索等。 总结起来,搜图相似性技术是一项基于Java编程语言的图像处理技术,通过特征提取和相似度计算实现大量图像中寻找相似图像的功能。使用Java的图像处理库和算法,可以灵活选择适合的方法,并结合优化算法提高搜索效率。 ### 回答3: 搜图相似性是指通过计算机算法来识别和比较图像之间的相似性。在Java编程语言中,有许多可以用来实现图像相似性搜索的库和算法。 一种常见的方法是基于特征描述符的匹配。这种方法首先提取图像的特征描述符,比如SIFT(尺度不变特征变换)或SURF(加速稳健特征)等。然后,计算两个图像特征之间的相似度,如欧氏距离或余弦相似性等。通过这种方式,我们可以找到与给定图像最相似的其他图像。 另一种方法是使用卷积神经网络(CNN)进行图像相似性搜索。CNN可以学习图像的表示和特征,因此可以用来比较两个图像之间的相似性。首先,我们需要训练一个CNN模型,使其能够提取图像的特征表示。然后,我们可以用这个模型来计算两个图像之间的相似度,例如计算它们在特征空间中的距离。 除了以上提到的方法,还有一些其他的图像相似性搜索算法,如局部敏感哈希(LSH)和深度学习等。这些算法在不同的场景下都有不同的应用和性能表现。 总之,Java编程语言提供了许多可以实现图像相似性搜索的工具和算法。开发者可以根据具体需求选择合适的方法来实现搜图相似性功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值