计算文本信息熵

这段代码展示了如何使用Java计算文本信息熵。通过读取文件、统计字符出现次数并应用信息熵公式,最终得出文本的信息熵。程序还计算了执行时间。
摘要由CSDN通过智能技术生成
package Nlp;

import org.apache.commons.lang.StringUtils;
import java.io.*;
import java.nio.charset.Charset;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.*;
import java.util.stream.Collectors;
import java.util.stream.Stream;

/**
 * @author ruyi.yury
 * @date 2018/6/11 0011 20:29
 */
public class CalculateEntropy {
    /**
     * 文件路径
     */
    private final static String path = "H:\\weibo.txt";
    /**
     * 信息熵
     */
    private double entropy = 0.0;


    public static void main(String[] args) throws IOException {
        calculate(path);
    }

    /**
     * 计算信息熵
     *
     * @param path
     * @return
     */
    public static void calculate(String path) {
        long startTime = System.currentTimeMillis();
        try {
            //读取文件,统计同类字出现次数,以(k,v)存储,k为字,v为该字的数量
            Map<Object, Long> map = Files.lines(Paths.get(path), Charset.defa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值