logistic回归概率详解
上一篇我们介绍了线性代数的基本知识,并以PCA作为案例进行了讲解。在本篇中,我们依然按照相同的思路进行开展:首先复习一下概率的相关知识,最后以对率回归(对数几率回归)为案例进行讲解。
1. 概率论
AI圣经《deep learning》一书把线性代数、概率与信息论和数值计算三部分作为机器学习中基础的数学知识进行单独设置章节来讲解,可见这几部分对机器学习乃至深度学习的重要性。
所以我们本篇复习一下高中到大学学习过的概率论知识(至于信息论的知识,我们会到基础机器学习的版块和相关案例结合一起讲解),希望和大家一起学习进步。
1.1定义
在这里,我们采取和统计二者的对比来介绍概率论的相关定义。
- 统计推断是根据观测的数据,反向思考其数据生成过程,即黑箱子的内部结构做出分析,并提出各种假设,这些假设都是概率模型
- 概率论是统计推断的基础,许多定理与结论,如大数定理、中心极限定理等保证了统计推断的合理性。
- 预测、分类、聚类、估计等,都是统计推断的特殊形式,强调对于数据生成过程的研究。
简而言之,统计是演绎分析,概率为归纳总结。形象而言,统计是黑箱子 ,我们通过手里的黑白球来推断箱子里的球的分布;概率则是透明箱子 ,我们通过箱子里的球的状况总结分布,从而判断手中球的颜色概率。
1.2随机变量
首先,具有以下三个特征的试验称为随机试验(用E来表示):
- 试验可以在相同的条件下重复进行;
- 试验可能出现的结果是事先预知的;
- 每次试验有且只有其中一个结果出现,但在每次试验结束之前,不知道哪一个结果会出现。
在随机试验中,实验的结果中每一个可能发生的事件叫做实验的样本点(Sample point,通常用x来表示);所有的样本点x1,x2,x3···,xn构成的集合叫做样本空间(Sample space,通常用S来表示):
介绍了以上知识点后,我们假设随机试验E的样本空间为S,如果对每一个样本点e∈S,都有唯一的实数值X(e)与之对应,则称x(e)为S上的 随机变量 ,简记为X。
引入 随机变量 后,我们就可以用随机变量来描述 随机事件&#