Java实现-余弦相似度

Cosine similarity is a measure of similarity between two vectors of an inner product space that measures the cosine of the angle between them. The cosine of 0° is 1, and it is less than 1 for any other angle.

See wiki: Cosine Similarity

Here is the formula:

cosine-similarity

Given two vectors A and B with the same size, calculate the cosine similarity.

Return 2.0000 if cosine similarity is invalid (for example A = [0] and B = [0]).

样例

给出 A = [1, 2, 3]B = [2, 3 ,4].

返回 0.9926.

给出 A = [0]B = [0].

返回 2.0000

import java.text.*;
class Solution {
    /**
     * @param A: An integer array.
     * @param B: An integer array.
     * @return: Cosine similarity.
     */
   public static double cosineSimilarity(int[] A, int[] B){
		if(A.length!=B.length){
			return 2.0000;
		}
		if(A==null||B==null){
			return 2.0000;
		}
		long fenzi=0;
		for(int i=0;i<A.length;i++){
			fenzi+=A[i]*B[i];
		}
		long left=0;
		long right=0;
		for(int i=0;i<A.length;i++){
			left+=A[i]*A[i];
			right+=B[i]*B[i];
		}
		if(left*right==0){
			return 2.0000;
		}
		double result=fenzi/Math.sqrt(left*right);
		DecimalFormat df=new DecimalFormat("#.####");
		return Double.parseDouble(df.format(result));
	}

}


  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Java中可以使用余弦相似度算法来计算两个文本的相似度。具体步骤如下: 1. 将文本进行分词,去除停用词等无用信息,只保留有意义的词汇。 2. 构建词频向量,将分好词的文本转化为向量形式。 3. 计算两个文本向量的余弦相似度,公式如下: ![cosine similarity](https://wikimedia.org/api/rest_v1/media/math/render/svg/ee5d8b22367c4ec2e4f7d0cb263dfe0e0f9b3d19) 其中,A和B表示两个文本的向量表示,|A|和|B|表示它们对应的向量长度。 余弦相似度的取值范围为[-1,1],值越接近1表示两个文本越相似,越接近-1表示两个文本越不相似,等于0表示两个文本没有关系。 可以使用Java中的Apache Commons Math库中的CosineSimilarity类来计算余弦相似度。 4. 根据需要设置相似度的阈值,判断两个文本是否相似。 下面是一个示例代码: ```java import org.apache.commons.math3.linear.RealVector; import org.apache.commons.math3.linear.ArrayRealVector; import org.apache.commons.math3.linear.RealMatrix; import org.apache.commons.math3.linear.MatrixUtils; import org.apache.commons.math3.linear.SparseRealVector; import java.util.ArrayList; import java.util.List; public class TextSimilarity { private List<String> words; private RealVector vector; public TextSimilarity(String text) { words = new ArrayList<String>(); String[] array = text.split(" "); for (String word : array) { words.add(word); } vector = new SparseRealVector(words.size()); for (int i = 0; i < words.size(); i++) { vector.setEntry(i, 1); } } public TextSimilarity(List<String> words) { this.words = words; vector = new SparseRealVector(words.size()); for (int i = 0; i < words.size(); i++) { vector.setEntry(i, 1); } } public double getCosineSimilarity(TextSimilarity other) { RealVector otherVector = other.getVector(); return (vector.dotProduct(otherVector)) / (vector.getNorm() * otherVector.getNorm()); } public List<String> getWords() { return words; } public RealVector getVector() { return vector; } public static void main(String[] args) { String text1 = "Java is a programming language"; String text2 = "Python is a programming language"; TextSimilarity ts1 = new TextSimilarity(text1); TextSimilarity ts2 = new TextSimilarity(text2); System.out.println(ts1.getCosineSimilarity(ts2)); // 0.7071067811865475 } } ``` 以上代码的实现过程是: 1. 首先将文本进行分词,得到一个单词列表。 2. 然后根据单词列表构建词频向量,向量中每个元素表示一个单词在文本中出现的次数,这里简化为每个单词出现一次,向量中对应的元素值为1。 3. 计算两个文本向量的余弦相似度。 4. 输出结果。 注意,这里的实现只是一个基本的示例代码,实际使用中可能需要进行更多的优化和处理,例如去除停用词、使用TF-IDF权重等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Narasimha_Karumanchi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值