目录
在机器学习中我们以特征向量为方向,特征值为重要程度大小来进行研究(因为他是数据集所构成的线性空间经过一定变换后不变的向量 用其来研究前因后果比较方便)
编辑 特征值分解(将大矩阵化为小矩阵,思想是找几个具有代表性的特征向量来代替原矩阵)
连续型随机变量(用概率密度表示,只能看分布情况,不能表示出一个数值的概率(这是离散型数据才能表示出来的))
似然:其实就是某件事发生是否有规律的,利用参数来表示这个规律性,没有规律那么参数就是没意义的数,有规律那么参数的大小将细说这个规律性
第七章概率论
独立性(就是A发生的前提下,发生B事件的概率等于没有任何前提 B事件发生的概率)
离散型二维随机变量概率分布(二维表来表示,每一个元素都可以看成该点所构成的区间占(整一个二维坐标轴的大小,称之为该点的概率))
连续型二维随机变量(之前的一维随机变量求概率是求面积也就是定积分,那么二维很显然就是求体积也就是二重积分)
边缘分布(不观察整体而要单独观察x,y 的情况, 求x的边缘分布 ,那么y就取无限表示不作限制)
切比雪夫不等式 (由马尔可夫不等式得到,可以应用于求在一定概率范围内某件事件出现的频率达到某个值的次数)
中心极限定理(样本的均值近似总体的均值,并且在总体均值周围呈现正态分布)
后验概率估计与似然概率估计的目的都是参数估计,即是选定合适的参数
后验概率估计只是比似然估计多了一个相验条件。那么我们可以在似然公式上*多一个先验概率即可
为什么要用贝叶斯?因为生活中我们并不能够知道数据的整体分布,而只能通过获取一部分数据来进行分析猜测编辑
案例以及公式看起来有些混乱,那不用看,其实也就是说了这么一件事。
贝叶斯建模的我打算开一个新系列叙述,这里就不多做解析了,好本季结束,我们下一季再见!!!
第四章:线性代数
秩=基数=极大无关组的向量数 =坐标轴的轴数=空间维数
向量内积
向量正交(向量两两垂直)
矩阵化简其实就是等价地转化成接近基的形式,基础解系就是方程组的解而已,我们通过简化矩阵缩放坐标轴,从而使得方程组的式子更简单,这样也就方便求解。自由变量是除了坐标轴以外的变量,这个任意取值(非0)
求基础解系
化简(缩放坐标系)
自由未知量(除了构成坐标轴的变量外的变量)
基础解系:取自由未知元为一个简单的非零数+坐标轴最终缩放形式
规范正交基(单位坐标轴)
第五章:特征值与特征向量
特征向量的几何意义是经过线性变换后并不改变位置的向量,只是伸缩(伸缩大小就是特征值)
至于矩阵其实就是线性变换。根据相对论而言,基不变 ,向量发生线性变换等价于向量不变,基发生线性变换。我更加偏向于利用基变换来分析线性变换,所以从这个角度而言,矩阵的每一列就表示一个坐标轴的变换(伸缩 旋转)。当然当秩数不等于列数时,我们只需要考虑有效的列数即可,因为有一些是干扰列。
AX=人X的理解
在机器学习中我们以特征向量为方向,特征值为重要程度大小来进行研究(因为他是数据集所构成的线性空间经过一定变换后不变的向量 用其来研究前因后果比较方便)
一个线性空间中不止一个特征向量,我们选取特征值大的特征向量进行研究,特征值越大代表该特征向量越重要。正如拳击是我们出拳的方向有很多个,但是每个方向造成的伤害不尽相同,伤害值就是特征值,所以我们当然选伤害值最大的方向了。
特征空间
SVD矩阵分解:将大矩阵分解为小矩阵
基变换
特征值分解(将大矩阵化为小矩阵,思想是找几个具有代表性的特征向量来代替原矩阵)
特征分解的条件要求原来的矩阵必须是N*N的,而且具有N个线性无关特征向量
svd矩阵分解
SVD推导
第六章随机变量
离散型数据变量以及连续型数据变量简单划分:整数或者自然数的是离散型,计数取的,连续型是包括小数的,任意取的
连续型变量和离散型变量区别:离散型变量是通过计数方式取得的,即是对所要统计的对象进行计数,增长量非固定的。连续型变量是一直叠加上去的,增长量可以划分为固定的单位。
区别举例
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。
如果变量可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连续型随机变量。比如,公共汽车每15分钟一班,某人在站台等车时间x是个随机变量,x的取值范围是[0,15),它是一个区间,从理论上说在这个区间内可取任一实数3.5、√20等,因而称这随机变量是连续型随机变量。
对于连续型变量,一般只能编制组距式变量数列;对于离散型变量,如果变量值个数较多,并且变动幅度较大时,应该编制组距式变量数列, 对于变量值较少的离散型数据,一般编制单项式变量数列。
变量值的多少,跟数据量的多少是不一样的,有时候数据量很多,但是变量值却很少。比如研究一个班(110人)的年龄结构,有110个数据,但是有可能只有两三个变量值,假设最小的20岁,最大的22岁,那么就只有三个变量值,那么分组时就按照单项式变量数列分组。
离散型随机变量
连续型随机变量(用概率密度表示,只能看分布情况,不能表示出一个数值的概率(这是离散型数据才能表示出来的))
我的理解就是一个点的概率难求,那么我们把该点邻近区间的面积大小占比就是该点出现的概率,那么求面积我们在行的是定积分,在数据分析时,我们往往会线根据数据分布拟合好曲线,那么也就是说能知道函数,那么我们要知道某些数据的出现概率,又知道了函数的具体形式,显然我们便顺理成章地会想到用定积分来描述概率。
简单随机抽样
所谓联合分布函数 联合概率密度其实就是个体相乘即可
似然:其实就是某件事发生是否有规律的,利用参数来表示这个规律性,没有规律那么参数就是没意义的数,有规律那么参数的大小将细说这个规律性
似然函数
似然函数的自变量是参数(),因为数据分析时的数据我们是已经收集到了的,我们想要描述某些数据发生的规律性,那么以为自变量是便于描述这个规律性的
密度函数的自变量是数据x,因为我们想要看某些数据的出现概率,显然就是以这些数据为自变量更便于描述这个概率。
极大似然估计
就是在候选参数中选择一个参数使得样本出现的概率最大。
因为我们在数据分析中,会先拿到一组数据样本,我们人为地设定一组参数,我们要做的就是评估哪个参数能更好地拟合数据。对于这个目标我们也可以这样哪个参数使得这些数据出现的可能性最大。这两个说法等价,极大似然估计是通过第二个说法提出的。
取对数的原因是为了算数方便
例题
第七章概率论
频率是统计出现的次数占比,是真切计算出来的
概率是通过稳定的频率估计出来的
古典概型(可能结果有限而且每种可能结果出现的概率一样)
条件概率(在某个前提发生的情况下 某事发生的概率)
值得注意的是条件概率,当前提A发生时,样本空间缩小为A
独立性(就是A发生的前提下,发生B事件的概率等于没有任何前提 B事件发生的概率)
n重伯努利实验:是指每次实验结果只有两个结果的重复独立试验
求某个伯努利试验的事件A出现的次数概率
二维随机变量(不只是考虑一个方面,而是考虑两个方面)
离散型二维随机变量概率分布(二维表来表示,每一个元素都可以看成该点所构成的区间占(整一个二维坐标轴的大小,称之为该点的概率))
解读:x取1 2 3 4的可能都是1/4,当x取1时,y只能取1 x取2时,y可以取1 2.......
连续型二维随机变量(之前的一维随机变量求概率是求面积也就是定积分,那么二维很显然就是求体积也就是二重积分)
边缘分布(不观察整体而要单独观察x,y 的情况, 求x的边缘分布 ,那么y就取无限表示不作限制)
离散型边缘分布
连续型边缘分布
期望(加权平均可能求和)
连续型期望
二维离散型期望
二维连续型期望
期望的性质
马尔可夫不等式
方差
大数定理(实现多次的频率近似等于概率)
马尔可夫不等式
切比雪夫不等式 (由马尔可夫不等式得到,可以应用于求在一定概率范围内某件事件出现的频率达到某个值的次数)
中心极限定理(样本的均值近似总体的均值,并且在总体均值周围呈现正态分布)
不同的采样样本得到的均值显示在坐标轴上呈现正态分布(蓝色),黑色那个是总体
后验概率分布
后验概率估计与似然概率估计的目的都是参数估计,即是选定合适的参数
后验概率估计只是比似然估计多了一个相验条件。那么我们可以在似然公式上*多一个先验概率即可
先验条件就是没做实验前我们就估计了一个结果,以这个结果为条件,接着再做实验,得到数据。后验概率估计=似然*先验条件。
最大后验参数估计,就是在诸多参数中选取一个使得拟合效果最佳的参数,与最大似然参数估计的步骤一样。
例子
关于后验分布的例子
贝叶斯拼写纠正实例
贝叶斯公式
利用贝叶斯公式转换
我来概述一下这个案例的概要吧
奥卡姆剃刀(什么越常见什么就是越好的)
虽然高阶的函数在训练集中拟合效果很好,但是在测试集中分类效果往往是欠佳,这是因为高阶的函数式过拟合了。
而高阶的函数不如低级的常见,所以根据奥卡姆剃刀出现的次数最多的就是最好的原理,我们往往采用低阶的函数分类
后验概率估计案例(垃圾邮件过滤实例)
垃圾邮件过滤分析案例概要
贝叶斯分析
概述
总结贝叶斯分析与经典概率论分析的区别
概率的解析
统计学派与贝叶斯的世界观
贝叶斯算法概述
为什么要用贝叶斯?因为生活中我们并不能够知道数据的整体分布,而只能通过获取一部分数据来进行分析猜测
案例
案例以及公式看起来有些混乱,那不用看,其实也就是说了这么一件事。
贝叶斯公式解析