统计学习
一只老风铃
欣于所遇,暂得于己,快然自足。
展开
-
统计学习 EM算法应用-三硬币模型
【问题描述】假设有三枚硬币,分别记为A、B、C。这些硬币正面的概率分别为π,p,q,进行如下的抛硬币实验:先掷硬币A,根据其结果选出硬币B或者硬币C,正面选硬币B,反面选硬币C,然后掷选出的硬币,掷硬币的记过,出现正面记作1,出现反面记作0,独立地重复n次实验(这里n=10),然后观测结果如下:1,1,0,1,0,0,1,0,1,1假设只能观测到掷硬币的结果,不能观测掷硬币的过程,问如...原创 2020-01-09 19:35:54 · 2351 阅读 · 0 评论 -
统计学习 损失函数与正则化
【损失函数】描述预测结果与实际结果的差异大小01损失函数预测值与实际值不相等时候为损失为1,相等时候损失为0该损失函数只要预测错误,损失就为1,而不论预测错误多大或多小,例如感知器算法绝对值损失函数平方损失函数对数损失函数【正则化】在机器学习模型训练中,通常的优化目标是最小化损失函数,但随之而来的是带来模型的过于复杂,...原创 2020-01-08 18:39:46 · 269 阅读 · 0 评论 -
统计学习 最小错误率与最小风险的贝叶斯决策
【最小错误率的贝叶斯决策】贝叶斯定理: 以两类问题为例,已知两类别和的先验概率和 以及类别特征的条件概率和现给定一个样本的特征x 分析其属于何种类别?判别函数: 若 则 X属于 若 则 X属于 最小错误率的贝叶斯决策即求解最大的类别后验概率进一步,针对多类问题,其判别函数形式化表达为:...原创 2020-01-07 19:58:54 · 7856 阅读 · 2 评论 -
统计学习 前向算法
【问题描述】隐式马尔可夫模型中,在给定参数下,求解观测序列O的出现概率,即求解前向变量: 在t时刻,观测序列为 那么t时刻为Si状态的概率【求解过程】t=1时刻输出序列为O1 此时计算其发生的概率即: 其可能是三种隐含状态输出显示的结果即:从状态1发出;从状态2发出;从状态3发出;从状态1发出得到O1的概率由发射矩阵可知为 同理...原创 2020-01-07 16:47:59 · 237 阅读 · 0 评论 -
统计学习 隐式马尔可夫模型HMM
【模型描述】马尔可夫性质:一个随机过程在给定当前状态和过去所有状态下,其未来的条件状态分布仅仅依赖于当前状态也即无记忆性 公式描述即:马尔可夫链:用于描述具有马尔可夫性质的随机过程,上式子中由组成的状态序列X即为马尔可夫链隐式马尔可夫模型:时间序列:隐含状态序列:可见状态序列:从一个隐含状态到下一个隐含状态转移过程:从隐含状态到一个可见状态的输出:【...原创 2020-01-07 15:13:01 · 304 阅读 · 0 评论 -
统计学习 流形学习
在高维空间中,欧式距离不能准确反映数据内在得相似性。流形是一个局部具有欧式距离性质得拓扑空间 l流形能近似任意高维空间的子空间测地线距离:在高维空间中欧式距离不再能适用测地线:流形上两点之间距离最短的曲线,类似于欧式空间的直线测地线距离:邻近的点:输入空间的欧式距离提供一个测地线距离的近似 较远的点:通过一系列邻域点之间的欧式距离的累加近似等距映射ISOMAP算法是...原创 2020-01-01 19:30:19 · 712 阅读 · 0 评论 -
统计学习 k-means聚类
【k均值聚类】问题:给定{Xi} i=1,2....n 进行聚类输入:{X1,X2,....Xn} 簇的数目为k算法流程:初始化选择K个种子作为K个类簇的中心 repeat for each Xi do 计算Xi到每个类簇中心的距离 将Xi指配到距离最近的类簇中 end for ...原创 2020-01-01 15:41:11 · 575 阅读 · 0 评论 -
统计学习 无监督学习聚类
【无监督学习】 概念 类别 监督学习 给定{Xi,Yi} i=1,2....学习输入特征X与输出Y之间的函数关系 分类、回归、排序 无监督学习 给定{Xi} i=1,2....寻找数据集的内部结构 聚类、概率密度估计、可视化 为什么需要无监督学习?原始数据容易获取,但标注数据的代价大 降低数据存储和计算 高纬降噪 数据进行探索性...原创 2020-01-01 14:41:23 · 257 阅读 · 0 评论 -
统计学习 势函数算法
【势函数】在线性分类中,还包括一种势函数的判别方法,其来源于等势线、等高线的概念。对于两类可分问题,其中属于的占据一个高山及其周围区域;而属于的占据一个低谷及其区域。那么其中存在一条等高线,高于该等高线的属于类;低于该等高线的属于类.对于一个确定的区域,其势函数的表达式为 一个势函数有以下特点:当X越接近时,的函数值越大,当时,取得最大值 当X越远离时,的函数值越小,特别的(其...原创 2019-12-28 20:47:00 · 5902 阅读 · 0 评论 -
统计学习 感知器算法
【线性判别与感知器算法】线性判别:对于一个样本X以及判方程 ,判别超平面上的点X均满足方程而当时候,该点位于判别面的一侧,归为类别 而当时候,该点位于判别面的一侧,归为类别而点X到超平面的距离的计算公式为:对于类 其对应的标签y1=1;对于类 其对应的标签y2=-1对于一次线性分类,以所有分类错误点到超平面的距离之和作为代价函数,计算公式为: ...原创 2019-12-28 19:07:11 · 254 阅读 · 0 评论 -
统计学习 梯度下降
【案例引入】试想在一个夜晚,你目前处于一个山上,不考虑通过性,如何快速到达山脚(也就是最低点),可能有的几条策略是:不走向上的路,不走水平的路,那样海拔不会下降 总是走比较陡的路,有悬崖最好,因为可以速降 每次走一段距离歇一会,找到当前最陡峭的方向,继续走可以发现:如果多次停留歇息,寻找比较陡峭的方向,可以确保海拔下降的最快,但停留寻找方向需要一定时间开销 而如果几乎不停留,而...原创 2019-12-28 17:44:38 · 274 阅读 · 0 评论 -
统计学习 极大似然估计
【案例引入】原问题:一个袋子装有100个球,其中黑球70个,白球30个,问拿出一个球是黑球的概率? 很显然概率为0.7修改后问题:一个袋子装有100个球,拿出10个,其中7个黑球,3个白球,问原先袋子中黑球的比例为多少?即通过出现的情况现象预估原先模型的参数?那么可以假设原先黑球比例为p 那么拿出一个球的概率也是p那么出现7个黑球 3个白球...原创 2019-12-25 21:06:27 · 512 阅读 · 0 评论 -
统计学习 Adaboost
【基本原理】将多个弱分类器进行组合,组成一个强分类器;弱分类器:通常指代单层决策树,也就是决策树最简单的模型,只有一个特征判断点,选择一维特征来进行分类如二维坐标点中选取X=2为划分点,X>2为+1类 X<2为-1类一个强分类器由多个弱分类器迭代训练组合而成,每一次只训练一个弱分类器,之前训练好的分类器参与下一次分类,也就是第N次迭代将训练第N个弱分类器,而前面的...原创 2019-12-24 20:00:47 · 328 阅读 · 0 评论 -
统计学习 分类决策树
【决策树】在分类问题中,基于一定的特征选择,将数据集划分成不同的分支,并不断递归下去直到划分为多个满足要求的小数据集,对于一个样本,其分类的过程是一系列判断和选择的过程。过程:特征选择、决策树生成、决策树修剪目标:根据训练集进行构建一个分类模型,能够对新来的数据正确分类本质:一系列分类规则的整合【构建过程】1.首先所有训练数据集都位于根节点2.选择一个最优特征划分数据集...原创 2019-12-23 20:47:08 · 355 阅读 · 0 评论 -
统计学习 贝叶斯分类
【概率知识】事件独立:当事件x与事件y相互独立时,有 p(x,y|z)=p(x|z)*p(y|z) 成立即事件x的发生与否 与 事件y发生与否 不相关,完全独立条件概率:p(x|y)表示当事件y发生时候,事件x发生的概率全概率公式:p(x)=p(x|y1)+p(x|y2).....一种理解角度是:事件x发生的概率,是出现y1现象时x发生的概率+出现y2现象时x发生的概率.....原创 2019-12-21 19:03:39 · 336 阅读 · 0 评论 -
统计学习 线性SVM
【决策面方程】针对2类样本点,寻找使得分类间隔最大的分类决策面,以二维空间为例二维空间的直线判别方程:y=ax+b => ax-y+b=0 => ax1-x2+b=0方程向量化:[a -1][x1 x2]T+b=0进一步,使用w列向量和x列向量以及标量y转化: wTx+y=0其中 w=[w1 w2]T x=[x1 x2]T 以...原创 2019-12-18 21:18:33 · 400 阅读 · 0 评论 -
统计学习 多类线性判别
【线性判别】两类问题得判别函数,若X是二维模式样本X=(X1 X2) 用X1 X2作为坐标分量,模式的平面图若分属于1类和2类的模式可以用一个直线方程来划分d(x)=w1x1+ w2x2+ w3= 0其中X1 X2为坐标变量,W1 W2 W3为参数,则对于一个不知道类别的模式带入的d(x)若d(x)>0 则x属于1类 若d(x)<0 则x属于2类...原创 2019-12-07 16:45:55 · 2013 阅读 · 1 评论 -
统计学习 PCA主成分分析
【信息的表示与降维】通常情况下,数据被表示成一组记录的组合,在机器学习领域通常用一维列向量表示一组特征。而当数据需要的特征过多时,在面对成百上千的维度情况下,算法的开销显著增大,因为数据的降维显得非常有必要,降维意味着部分数据的丢失,不过由于数据本身之间具备一定的相关性,因为采用合理的方法使得损失降低例如:学生的数据包含2列A和B A列中男生取1而女生取0 B列中男生取0而女生取1 那么...原创 2019-12-07 15:52:59 · 566 阅读 · 0 评论