机器学习基础
lennonmwy
这个作者很懒,什么都没留下…
展开
-
统计学习方法学习笔记(第四章 朴素贝叶斯法)
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y), 具体地,学习以下先验概率分布以及条件概率分布。先验概率分布为P(Y = ck);条件概率分布为p(X = x | Y = ck);条件概率分布有指数级量级的参数,其实际参数的估计是不可行的。那么参数个数为K Sj.朴素贝叶斯法对条件概率分布作了条件独立性的假设,由于这是一个较强的假设,朴素贝叶斯法也由此得名。朴素贝叶斯法...原创 2018-10-18 14:05:11 · 230 阅读 · 0 评论 -
百面机器学习学习笔记
特征归一化为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。k维度的低纬度向量表示。word2vec 实际是一种浅层的神经网络结构,cbow和skip-gramLDA, 线性回归分析还是文档主题生成模型。GAN生成式对抗网络。准确率的局限性,分类器把所有的样本都预测为负样本也可以获得99%的准确率。准确率不适用于正负样本分布不均匀...原创 2018-11-02 10:15:02 · 1916 阅读 · 0 评论 -
统计学习方法学习笔记(第十章 隐马尔可夫模型)
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,在由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马儿可夫链随机生成的状态的序列,称为观测序列,序列的每一个位置又可以看作是一个时刻。...原创 2018-10-24 11:01:26 · 184 阅读 · 0 评论 -
统计学习方法学习笔记(第九章 EM算法及其推广)
EM算法与初值的选择有关,选择不同的初值可能得到不同的参数估计值。EM算法可以用于生成模型的非监督学习。原创 2018-10-23 16:05:28 · 234 阅读 · 0 评论 -
统计学习方法学习笔记(第八章 提升方法)
对提升方法来说,由两个问题需要回答:一是在每一轮如何改变训练数据的权值或概率分布;二是如何将若分类器组合成一个强分类器。关于第一个问题,adaboost的做法是,提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。至于第二个问题,即弱分类器的组合,adaboost采取加权多数表决的方法。具体地,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率大的弱...原创 2018-10-23 15:50:55 · 165 阅读 · 0 评论 -
统计学习方法学习笔记(第七章 支持向量机)
支持向量机是一种二类分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它称为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化。可以形式化为一个求解凸二次优化的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化问题。线性可分支持向量机,线性支持向量机假设两个空间的元素一一对应,并...原创 2018-10-23 15:00:42 · 312 阅读 · 0 评论 -
统计学习方法学习笔记(第六章 逻辑斯谛回归模型)
一个时间的几率(odds)是指该事件发生的概率与该事件不发生概率的比值。如果事件发生的概率是p,那么该事件的几率是p/1-p,二项逻辑斯谛回归模型是一种分类模型,对于这种模型而言,对数几率的值是w点x。这就是说,在逻辑斯谛回归模型中, 输出Y = 1的对数几率是输入x的线性函数。或者说,输出Y = 1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。线性函数的值越接近正无穷...原创 2018-10-22 19:59:33 · 512 阅读 · 0 评论 -
统计学习方法学习笔记(第五章 决策树)
决策树的损失函数通常是正则化的极大似然函数。决策树的策略是以损失函数为目标函数的最小化。当损失函数确定以后,学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策树中选取最优的选择策略是NP完全问题,所以在现实中决策树学习算法通常采用启发方法,近似求解这一最优化问题,这样得到的决策树是次最优的。根据信息增益准则特征选择方法是:对训练数据集D,计算其每个特征的信息增益,并比...原创 2018-10-22 13:58:29 · 440 阅读 · 0 评论 -
统计学习方法学习笔记(第三章 k近邻法)
k近邻法的特殊情况是k=1的情况,称为最近临算法,对于输入的实例点x,最近邻法将训练数据集中与x最邻近点的类作为x的类。p = 2时,Lp距离称为欧式距离。p = 1时,称为曼哈顿距离。p = 无穷时,各个坐标距离的最大值。k值减小导致过拟合,k太大导致欠拟合。多数表决规则等价于经验风险最小化。kd树搜索的平均计算复杂度为O(logN),k近邻法是基本且简单的分类与回归...原创 2018-10-17 14:23:13 · 179 阅读 · 0 评论 -
统计学习方法学习笔记(第二章 感知机)
感知机是二类分类的线性分类模型。感知机是一种线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器。超平面S称为分离超平面(separating hyperplane)。数据集的线性可分性。感知机所采用的损失函数是误分类点到超平面S的总距离。感知机问题算法是最优化损失函数问题的算法。感知机学习算法是误分类驱动的,具体采用随机梯度下降...原创 2018-10-09 17:02:06 · 132 阅读 · 0 评论 -
统计学习方法学习笔记(第一章)
监督学习分为三类,分类问题,监督问题,标注问题。标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。统计学习三要素:模型,策略,算法 风险期望或者平均损...原创 2018-10-09 15:30:34 · 82 阅读 · 0 评论 -
统计学习方法学习笔记
第1章 统计学习方法概论期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。经验风险最小化等价于极大似然估计。结构风险最小化是为了防止过拟合而提出的策略,加入了正则化。贝叶斯估计中的最大后验概率估计,是结构风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数、模型复杂度由模型的先验概率表...原创 2019-09-08 14:57:13 · 209 阅读 · 0 评论