第九次作业信息熵(Entropy)NO.1

最新推荐文章于 2023-07-06 00:15:00 发布

云轻风飞扬

最新推荐文章于 2023-07-06 00:15:00 发布

阅读量643

点赞数 1

分类专栏： pku作业

本文链接：https://blog.csdn.net/leselon/article/details/10355283

版权

pku作业专栏收录该内容

24 篇文章 0 订阅

订阅专栏

信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本书中到底有多少信息量。直到 1948 年，香农（C. E. Shannon）提出了“信息熵”(shāng) 的概念，才解决了对信息的量化度量问题。熵的概念发展成为信息论、数据压缩等学科的基础，在很多科学研究的领域尤其是计算机科学中有着广泛的应用。

实际上，一条信息的信息量大小和它的不确定性或存在概率有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。因此可以认为信息熵是系统有序化程度的一个度量。 Shannon 借鉴了热力学的概念，把信息与其存在概率关联起来并称之为“信息熵”，并给出了计算信息熵的数学表达式：

H = - ∑ P_i * log₂ P_i

假设有一个字符串要求它的信息熵，其中P_i是字符i出现的概率（该字符出现次数/所有字符数），然后将所有的P_i乘上取对数后的值log₂ P_i后累加，最后取负，得到字符串的信息熵。

本题要求计算给定字符串按照每个字符统计的信息熵。

输入：

一个字符串，请忽略所有非字母的字符(即只关注a-z, A-Z)，且不区分字母的大小写。

提示：可以用StdIn.readAll()读入字符串的所有内容

输出：

对应字符串的熵值，输出请用格式化输出("%4.2f\n")

样例输入：

To□be□or□not□To□be,↵

that□is□the□question↵

样例输出：

3.26↵

/*
 * 信息熵(Entropy)
 * H = - ∑  Pi * log2 Pi
 */
public class Main {
    public static double getEntropy(String str){
    	double H = 0.00;
    	int count = 0;
    	int [] letter = new int[26];
    	str = str.toUpperCase();
    	for(int i=0;i<str.length();i++){
    		char chr = str.charAt(i);
    		if(chr>'A' && chr < 'Z'){
    			letter[chr-'A']++;
    			count++;
    		}	
    	}
    	for(int i=0;i<26;i++){
    		double pi = 1.0*letter[i]/count;
    		if(pi>0){
    			H +=-(pi*Math.log(pi)/Math.log(2));
    		}
    	}
    	return H;
    }
	public static void main(String[] args) {
		String str = StdIn.readAll();
		double H = getEntropy(str);
		StdOut.printf("%4.2f\n",H);
	}
}