PM25文本相似度算法JAVA实现

本文介绍了一种使用JAVA实现的PM2.5文本相似度算法,主要探讨了如何在自然语言处理(NLP)领域中,通过算法来计算不同PM2.5数据报告之间的相似程度,为环境监测数据的分析提供支持。
摘要由CSDN通过智能技术生成

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class BM25Similarity {
   
	
    int D;//文档的数量
    double avgDocLength;//平均每篇文档的长度
    Map<String, Double> idf = new HashMap<String, Double>();//每个词语的逆文档频率
    double k1 = (double) 1.5;
    double b = (double) 0.75;

    
    //在创建对象的时候初始化相似度模型.需要基于所有语料的分词结果,计算相似度模型的参数。docWordsList为每一篇文档,分此后得到的列表。
    //由于是一个计数过程,速度比较快,在数据量比较小的时候可以使用这种策略。当数据量比较大的时候,需要将参数保存到文件或数据库,系统启动时加载即可。
	public BM25Similarity(List<List<String>> docWordsList) {
   
		
    	this.D = docWordsList.size();//初始化文档长度
    	this.avgDocLength = getAvgDocLength(docWordsList);//初始化语料库中文档的平均长度
    	
		//统计词频和文档频率
	    List<HashMap<String, Double>> freqMapList = new ArrayList<HashMap<String, Double>>();//每文档中,各个词语出现的次数
	    Map<String, Double> docFreqMap = new HashMap<String, Double>();//每个词语词语的文档频率
	    for(List<String> wordsList: docWordsList) {
   
			HashMap<String, Double> termFreq = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值