PM25文本相似度算法JAVA实现

最新推荐文章于 2023-05-27 13:55:45 发布

hidecode

最新推荐文章于 2023-05-27 13:55:45 发布

阅读量268

点赞数 1

分类专栏： JAVAEE 文章标签： java 自然语言处理 nlp

本文链接：https://blog.csdn.net/qq_43206800/article/details/115589786

版权

本文介绍了一种使用JAVA实现的PM2.5文本相似度算法，主要探讨了如何在自然语言处理（NLP）领域中，通过算法来计算不同PM2.5数据报告之间的相似程度，为环境监测数据的分析提供支持。

摘要由CSDN通过智能技术生成

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class BM25Similarity {
   
	
    int D;//文档的数量
    double avgDocLength;//平均每篇文档的长度
    Map<String, Double> idf = new HashMap<String, Double>();//每个词语的逆文档频率
    double k1 = (double) 1.5;
    double b = (double) 0.75;

    
    //在创建对象的时候初始化相似度模型.需要基于所有语料的分词结果，计算相似度模型的参数。docWordsList为每一篇文档，分此后得到的列表。
    //由于是一个计数过程，速度比较快,在数据量比较小的时候可以使用这种策略。当数据量比较大的时候，需要将参数保存到文件或数据库，系统启动时加载即可。
	public BM25Similarity(List<List<String>> docWordsList) {
   
		
    	this.D = docWordsList.size();//初始化文档长度
    	this.avgDocLength = getAvgDocLength(docWordsList);//初始化语料库中文档的平均长度
    	
		//统计词频和文档频率
	    List<HashMap<String, Double>> freqMapList = new ArrayList<HashMap<String, Double>>();//每文档中，各个词语出现的次数
	    Map<String, Double> docFreqMap = new HashMap<String, Double>();//每个词语词语的文档频率
	    for(List<String> wordsList: docWordsList) {
   
			HashMap<String, Double> termFreq =