目录
1.3.1 实验概率分布(empirical probability)
1. 概率
1.1 变量类型
其中每一行就是一个。
每一列就是一个。
如果你要对数据进行机器学习任务,那么你就要指定一列数据作为。
因此
例子:
要求根据 “姓名”,“年龄”,“身高”,“是否婚恋”,“学历”这些特征来进行预测“月薪”。
那么这个时候“月薪”这一列就是,而其他的列就是,很多任务里我们也把 称为特征,叫做标签。
张三以及张三所有的信息称为一条也叫一条数据。
根据中数据类型的不同,我们可以把他们分为:
:
通过名称来区分类型,例如“张三”,“李四”这些变量互相之间没有任何关系;这些变量之间也不存在顺序关系,他们相互之间是的。类型是一类特殊的。
:
变量值是离散的,而且不同的变量值之间存在天然的顺序,数学运算通常没有意义。例如酒店评级,三星,五星;其中是离散的值,但是不能进行数学运算,因为星星星,但是这违背了数据本身的意义,加完之后就变成了没有意义的数据。
():
变量值本身是实数,没有明显的数据边界,例如:距离,时间,价格;两个值之间是连续的,可以进行有意义的数学运算,例如。
:
等同差异,那么什么是不等同差异呢,比如当我们做分类任务的时候我们区分猫、狗、人,猫和狗之间的差异与人和狗之间的差异显然是不一样的,虽然猫和狗不同,人也和狗不同,但是这种’不同’ 仍然不是等价的。而这个时候(猫或狗或人的)名字之间虽然不同,但是这种不同我们可以认为是的,这个名字属性并不会对分类这个任务产生任何影响,换句话说,就算你换了一个名字,依然不影响分类任务。但换到另外一类任务中,可能名字就不是的了。
变量的类型之所以重要,是因为我们需要不同的处理方法,我们要避免无效和无意义的操作或者产生无意义的。
1.2 概率基础
我们之所以需要概率,是因为我们所处的世界和所面对的绝大多数情况,都是不确定的;当我们和别人擦肩而过的时候,我们喜欢猜他们的身份,帅气阳光、谈吐不凡的小伙大概率家境优渥,美丽而性感的女孩大概率是开朗的,而猜的过程就是一个通过观测到的已知信息进行概率预测的过程。
1.2.1 边际概率
假设我们现在有两个事件代表年龄;代表购买情况,也就构成了上面这张表格。
或者我们称为边际概率,他们是上表中的一整行或者一整列,所以我们叫他们“边际”概率:
还是举个具体的例子帮助理解:校园里随便抓一个人 > 45 岁的概率是多少,数学表示可以是或者写成