浙江大学-包家立计算生物学1

本文探讨了数据挖掘的过程,包括分类、聚类和相关性分析等步骤,并深入讲解了信息传递的原理,如信息的编码、信道传输及其对信号质量的影响。还介绍了二进制编码和信息熵的概念及其性质,同时涉及互信息和条件信息熵的讨论。
摘要由CSDN通过智能技术生成

数据挖掘的过程 在这里插入图片描述

数据开采的目的

分类
聚类
相关性分析(自相关,互相关)
偏差分析

结果解释和评价
除无关模式
新选择算法

信息的传递
从信源出发,通过信道,传递给信宿
信息的编码,即从信源发出的信号,经过编码形成机器可以识别的信号,经过信道进行传播。
简单的如同,打电话,声音信号的传播,先经过编码,然后先通过信道(此处是电磁波)进行电信号的传播,通过电磁4信号干扰,可以影响信号的质量,这也就是为什么通过电磁波的屏蔽可以阻断电子设备的通讯 。

采用二进制编码
先把事件分为等概率的两个事件,然后再将每一层的事件进行层层细分(按照发生的概率进行细分)。
在这里插入图片描述

字符位数

h(i)=log2(1/Pi),以二进制为例,此处的底就是进制数

此处的h(i)也是信息量的表示I(xi)

而信息熵是h(i)和相应的事件的概率的乘积,信息熵用H表示,即黑板上的第三个式子
H=Σp_i*Log_a(1/pi) (i从1到n),这个表示的是平均信息熵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值