数据挖掘的过程
数据开采的目的
分类
聚类
相关性分析(自相关,互相关)
偏差分析
结果解释和评价
除无关模式
新选择算法
信息的传递
从信源出发,通过信道,传递给信宿
信息的编码,即从信源发出的信号,经过编码形成机器可以识别的信号,经过信道进行传播。
简单的如同,打电话,声音信号的传播,先经过编码,然后先通过信道(此处是电磁波)进行电信号的传播,通过电磁4信号干扰,可以影响信号的质量,这也就是为什么通过电磁波的屏蔽可以阻断电子设备的通讯 。
采用二进制编码
先把事件分为等概率的两个事件,然后再将每一层的事件进行层层细分(按照发生的概率进行细分)。
字符位数
h(i)=log2(1/Pi),以二进制为例,此处的底就是进制数
此处的h(i)也是信息量的表示I(xi)
而信息熵是h(i)和相应的事件的概率的乘积,信息熵用H表示,即黑板上的第三个式子
H=Σp_i*Log_a(1/pi) (i从1到n),这个表示的是平均信息熵