概率论与机器学习
机器学习
其实是集合了统计学、概率论、计算机科学、数学算法等方面的交叉研究,即便你对机器学习的应用炉火纯青,但对
这些技术没有一个
全面的数学理解
,极有可能出现应用失误。因此与其说为什么概率论与数理统计在机器学习中为什么这么重要,
不如说为什么数学在机器学习中为什么这么重要!
概率论研究的是事物的不确定性,它是统计学、信息论的前置课程。概率论的难度系数属中等,毕竟你在高中就学习过如何计
算一个随机变量的期望、方差。从机器学习的视角来看,概率论是必须要了解的,但不需要达到精通的程度。你只需要灵活运用
它,把机器学习世界的不确定性变量算清楚就足够了。因此,当你掌握了概率论,你就揭开机器学习世界神秘的一层面纱。
对于有监督机器学习,其属性特征数据对应 ,它的目标值标签对应 ,如果我们把它当作是随机变量的话,那我们就可以用
概率论的观点对它进行建模。假设它服从某种
概率分布
,比如说人的身高大体是服从正太分布的,像
姚明
一样非常高的非常少,像
郭敬明
一样矮也是非常少的,比如中国的男性平均身高
1.75
左右,画出来就是我们学概率论和数理统计时候的一个正太分布:
我们要是对数据进行分类的话,根据他的身高、体重等等,那我们就可以对他的身高进行建模来计算它服从某种分布,然后计
算他的概率,这就是我们要学习概率论的原因。
2
、随机事件
什么是
随机事件
呢? 就是可能发生,也可能不发生的事件。比如你抛硬币,它正面朝上或者反面朝上,这就是一个随机事件;生孩
子,生男生女这也是一个随机事件。
如果一定发生的话,这种称为
必然事件
,比如说太阳明天会升起,这肯定是必然事件;不可能发生的事件,我们称之为不可能事
件,比如水往高处流,这就是不可能事件。
我们一般把随机事件用大写字母
A
或
B
这样来表示,每一个随机事件它关联有一个发生的概率,记作
P(A)
,像抛硬币它正面朝上的
概率是
0.5
,反面朝上的概率也是
0.5
,
0
≤
P(A)
≤
1
。 如果概率等于
1
那就是必然事件,如果等于
0
那就是不可能事件。
以前学概率论的时候,老师交了我们各种计算概率的方法,比如抽各种颜色的球等等这样的问题,一般都是用排列组合来算的。
举例说明:
40
个球,分
4
种颜色
,
比例为:
1
、
5
、
9
、
25
。一次抽四个,抽中不同颜色各一个的概率是多少?
事件随机抽球四次的排列数为(分母):
各取出一种颜色的排列组合数为(分子):
那么,一次抽四个,抽中不同颜色各一个的概率为:
对于这种条件概率的求解的方式
我们要按照思维的方法和条件对这个原本的条件进行求解
5.2
、连续随机变量
连续型的随机变量,理解起来抽象一些,它的取值是无限不可列个,比如
0
到
1
之间的所有的实数,首先它肯定是无限个,而它比
无限可列个更高级,它不可列,比如其中的
0.001
到
0.002
之间还是有无限个,不管怎么细分,
a
和
b
之间还是有无限个,这就是
连续型的随机变量,比如说抛石子在
0
到
1
的矩形范围内,它可能落在区域内任何一个位置,那么石子落在的位置
x,y
就是连续型
随机变量,说白了就是它坐标取
0
到
1
之间任何一个值都是有可能的。对于离散型随机变量,写成如下:
6.2
、方差
方差反应的数据的波动程度的,就是它和均值,我们的数学期望偏离程度的平均。这里每个数据减去期望的平方,不平方的话正负
抵消掉了,然后再乘以
P
概率值
9
、协方差
协方差是对于方差的推广,对于两个随机变量,它们的协方差是反应它们两个之间的线性相关程度的,把 换成 那就是方差
了,展开之后就是 和 的期望减去它们期望的乘积。