机器学习基础:概率和熵

目录

1. 概率

1.1 变量类型

1.2 概率基础

1.2.1 边际概率

1.2.2 联合概率

1.2.3 条件概率

1.2.4 先验概率,后验概率

1.2.5 事件的独立和条件独立

1.3 概率分布

1.3.1 实验概率分布(empirical probability)

1.3.2 理论概率分布

1.4 概率模型(Probability models)

2. 信息熵

2.1 二项分布的信息熵 

2.2 多项分布的信息熵

2.3 信息熵和信息编码

2.3.1 字母编码

2.3.2 图像编码


1. 概率

1.1 变量类型

其中每一行就是一个instance

每一列就是一个attribute

如果你要对数据进行机器学习任务,那么你就要指定一列数据作为label

因此instance = attributes + label


例子:

要求根据 “姓名”,“年龄”,“身高”,“是否婚恋”,“学历”这些特征来进行预测“月薪”。

那么这个时候“月薪”这一列就是label,而其他的列就是attributes,很多任务里我们也把attributes 称为特征,labels叫做标签。

张三以及张三所有的信息称为一条instance也叫一条数据。


根据attributes中数据类型的不同,我们可以把他们分为:

Nomial/categorial

通过名称来区分类型,例如“张三”,“李四”这些变量互相之间没有任何关系;这些变量之间也不存在顺序关系,他们相互之间是equally \: \: dissimilar的。boolean类型是一类特殊的nomial \: \: variable

Ordinal

变量值是离散的,而且不同的变量值之间存在天然的顺序,数学运算通常没有意义。例如酒店评级,三星,五星;其中3,5是离散的值,但是不能进行数学运算,因为3+ 5= 8星,但是这违背了数据本身的意义,加完之后就变成了没有意义的数据。

Continuousnumerical):

变量值本身是实数,没有明显的数据边界,例如:距离,时间,价格;两个值之间是连续的,可以进行有意义的数学运算,例如3m + 5m = 8m

equally \: \: dissimilar

等同差异,那么什么是不等同差异呢,比如当我们做分类任务的时候我们区分猫、狗、人,猫和狗之间的差异与人和狗之间的差异显然是不一样的,虽然猫和狗不同,人也和狗不同,但是这种’不同’ 仍然不是等价的。而这个时候(猫或狗或人的)名字之间虽然不同,但是这种不同我们可以认为是equally的,这个名字属性并不会对分类这个任务产生任何影响,换句话说,就算你换了一个名字,依然不影响分类任务。但换到另外一类任务中,可能名字就不是equally \: \: dissimilar的了。

变量的类型之所以重要,是因为我们需要不同的处理方法,我们要避免无效和无意义的操作或者产生无意义的attributs

1.2 概率基础

我们之所以需要概率,是因为我们所处的世界和所面对的绝大多数情况,都是不确定的;当我们和别人擦肩而过的时候,我们喜欢猜他们的身份,帅气阳光、谈吐不凡的小伙大概率家境优渥,美丽而性感的女孩大概率是开朗的,而猜的过程就是一个通过观测到的已知信息进行概率预测的过程。

1.2.1 边际概率

假设我们现在有两个事件X = \{x_1,x_2,x_3\}代表年龄;Y=\{y_1,y_2\}代表购买情况,也就构成了上面这张表格。

P(X=x_1),P(X=x_2),P(X=x_3)或者P(Y=y_1),P(Y=y_2)我们称为边际概率,他们是上表中的一整行或者一整列,所以我们叫他们“边际”概率:

还是举个具体的例子帮助理解:校园里随便抓一个人 > 45 岁的概率是多少,数学表示可以是P(X=x_3)或者写成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值