import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
public class BM25Similarity {
int D;//文档的数量
double avgDocLength;//平均每篇文档的长度
Map<String, Double> idf = new HashMap<String, Double>();//每个词语的逆文档频率
double k1 = (double) 1.5;
double b = (double) 0.75;
//在创建对象的时候初始化相似度模型.需要基于所有语料的分词结果,计算相似度模型的参数。docWordsList为每一篇文档,分此后得到的列表。
//由于是一个计数过程,速度比较快,在数据量比较小的时候可以使用这种策略。当数据量比较大的时候,需要将参数保存到文件或数据库,系统启动时加载即可。
public BM25Similarity(List<List<String>> docWordsList) {
this.D = docWordsList.size();//初始化文档长度
this.avgDocLength = getAvgDocLength(docWordsList);//初始化语料库中文档的平均长度
//统计词频和文档频率
List<HashMap<String, Double>> freqMapList = new ArrayList<HashMap<String, Double>>();//每文档中,各个词语出现的次数
Map<String, Double> docFreqMap = new HashMap<String, Double>();//每个词语词语的文档频率
for(List<String> wordsList: docWordsList) {
HashMap<String, Double> termFreq =
PM25文本相似度算法JAVA实现
最新推荐文章于 2023-05-27 13:55:45 发布
本文介绍了一种使用JAVA实现的PM2.5文本相似度算法,主要探讨了如何在自然语言处理(NLP)领域中,通过算法来计算不同PM2.5数据报告之间的相似程度,为环境监测数据的分析提供支持。
摘要由CSDN通过智能技术生成