机器学习
Rookiekk
这个作者很懒,什么都没留下…
展开
-
《机器学习》 周志华学习笔记第十四章 概率图模型(课后习题)python实现
一、基本内容1.隐马尔可夫模型1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R,生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O),给定一组观测变量值,推断就是要由P(Y,R,O)或者P(Y,R|O)得到条件概率分布P(Y,O).1.2. 概率图模型大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯...原创 2018-09-07 09:54:00 · 1092 阅读 · 0 评论 -
机器学习:正负样本数据量不平衡处理方法
无偏采样:意味着真实样本总体的类别比例在训练集中得以保持。在训练集中正反例数目不同时,令表示正例数目,表示反例数目,观测几率为,,我们假设训练集是真是样本总体的无偏采样,因此观测几率就代表了真实几率。只要分类器的预测几率高于观测几率就应判定为正例,即 若,则预测为正例。再缩放(再平衡): ...原创 2019-03-26 11:18:39 · 4535 阅读 · 0 评论 -
机器学习:生成式模型与判别式模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数: 或者条件概率分布: 。监督学习方法又分为生成方法和判别方法,对应生成式模型(Generative Model)与判别式模型(Discriminative...原创 2019-03-25 21:58:26 · 2794 阅读 · 0 评论 -
机器学习:正则化原理总结
面试中经常被问到正则化,进行了一个总结,懒得打字了,直接上笔记原创 2019-04-23 19:23:06 · 405 阅读 · 0 评论 -
机器学习:防止模型过拟合的方法
机器学习中造成过拟合的原因可能有以下几点:(1)数据有噪声(2)训练数据不足,有限的训练数据(3)训练模型过度导致模型非常复杂防止过拟合的方法:1.提前停止:对模型进行训练的过程即是对模型的参数进行学习更新的过程,这个参数学习的过程往往会用到一些迭代方法,如梯度下降(Gradient descent)学习算法。Early stopping便是一种迭代次数截断的方法来防止过拟...原创 2019-03-14 21:56:45 · 1393 阅读 · 0 评论 -
机器学习变量转换(定性变量、定量变量)
为了更好地讨论问题,将模型的自变量分类。在模型里使用的变量可以分为两类:数值型变量和类别型变量。如图1所示。一、定义数值型变量,在学术上被称为定量变量(quantitative variable),如长度、收入、重量等。它们的数值表示具体的测量或计数。事实上,定量变量按是否连续可进一步细分为连续型变量和离散型变量。在一定区间内可以任意取值的变量叫连续型变量,比如人的身高、体重等;反之则...原创 2019-01-15 17:06:15 · 17395 阅读 · 1 评论 -
机器学习性能度量(2):错误接受率 (FAR), 错误拒绝率(FRR),EER计算方法,python实现
上一篇博文中讨论了两种常用的性能度量查准率(precision)查全率(recall,也叫召回率)对应的P-R图与真正例率(TPR),假正例率(FPR)对应的ROC图。详情请看https://blog.csdn.net/qq_18888869/article/details/84848689。今天介绍另一种常用的人的度量方法FAR,FRR,此方法在识别身份,人脸识别等方面运用较多。1.概念...原创 2018-12-10 20:56:44 · 19857 阅读 · 4 评论 -
机器学习性能度量(1):P-R曲线与ROC曲线,python sklearn实现
最近做实验要用到性能度量的东西,之前学习过现在重新学习并且实现一下。衡量模型泛化能力的评价标准,这就是性能度量。性能度量反应了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果;什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求。一、性能度量方法1.1错误率与精度错误率是分类错误的样本数占样本总数的比例,精度是分类正确的样本数占样本总数的比例。...原创 2018-12-06 15:46:34 · 7078 阅读 · 1 评论 -
《机器学习》 周志华学习笔记第五章 神经网络(课后习题) python实现
1.神经元模型2.感知机与多层网络3.误差逆传播算法(A)BP算法:最小化训练集D上的累积误差标准BP算法:更新规则基于单个Ek推导而得两种策略防止过拟合:(1)早停(通过验证集来判断,训练集误差降低,验证集误差升高)(2) 正则化:在误差目标函数中引入描述网络复杂度的部分4.全局最小与局部最小跳出局部最小的方法:(1)不多参数初始化多个神经网络。去误差最小的解做为最终...原创 2018-09-02 17:11:00 · 584 阅读 · 0 评论 -
《机器学习》 周志华学习笔记第七章 贝叶斯分类器(课后习题)python 实现
课后习题答案1.试用极大似然法估算西瓜集3.0中前3个属性的类条件概率。好瓜有8个,坏瓜有9个属性色泽,根蒂,敲声,因为是离散属性,根据公式(7.17)P(色泽=青绿|好瓜=是) = 3/8P(色泽=乌黑|好瓜=是) = 4/8P(色泽=浅白|好瓜=是) = 1/8P(根蒂=蜷缩|好瓜=是) = 5/8P(根蒂=稍蜷|好瓜=是) = 3/8。。。自己计算另外...原创 2018-09-02 17:03:00 · 1527 阅读 · 0 评论 -
《机器学习》 周志华学习笔记第四章 决策树(课后习题)python 实现
一、基本内容1.基本流程决策树的生成过程是一个递归过程,有三种情形会导致递归返回(1)当前节点包含的yangben全属于同一类别,无需划分;(2)当前属性集为空,或是所有yangben在所有属性上的取值相同,无法划分;(3)当前结点包含的yangben集合为空,不能划分2.划分选择2.1信息增益:对可取值数目较多的属性有所偏好2.2增益率:对可取值数目较少的属性有所...原创 2018-06-28 16:18:00 · 850 阅读 · 0 评论 -
《机器学习》 周志华学习笔记第三章 线性模型(课后习题)python 实现
线性模型一、内容1.基本形式2.线性回归:均方误差是回归任务中最常用的性能度量3.对数几率回归:对数几率函数(logistic function)对率函数是任意阶可导的凸函数,这是非常重要的性质。4.线性判别分析(LDA 是一种降维的方法)5.多分类学习:5.1基于一些基本策略,利用二分类学习器来解决多分类问题,拆分策略:一对一(OvO)一对其余(OvR)多对多(MvM...原创 2018-06-13 14:17:00 · 1058 阅读 · 0 评论 -
《机器学习》 周志华学习笔记第二章 模型评估与选择(课后习题)
模型选择与评估一、内容1.经验误差与过拟合1.1 学习器在训练集上的误差称为训练误差(training error),在新样本上的误差称为泛化误差(generalizion error)。1.2 当学习器把训练样本学习的“太好“了的时候,很有可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象在机器学习中称为“过拟合”。与过拟合相...原创 2018-06-07 10:40:00 · 769 阅读 · 0 评论 -
《机器学习》 周志华学习笔记第一章 绪论(课后习题)
最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的。绪论 :一、内容1.基本术语2.假设空间与版本空间3.归纳偏好(常用的有奥卡姆剃刀) 没有免费的午餐定理(No Free Lunch Theorem,NFL,前提建设f均匀分布)式(1.2)显示总误差竟然与学习算法无关!告诉我们要谈论算法的相对优劣,必须要针对具体的学习问题。...原创 2018-06-05 15:38:00 · 551 阅读 · 0 评论 -
《机器学习》 周志华学习笔记第六章 支持向量机(课后习题)python 实现
一、1.间隔与支持向量2.对偶问题3.核函数xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果。核矩阵K总是半正定的。4.软间隔与正则化软间隔允许某些samples不满足约束 松弛变量5.支持向量回归(SVR)6.核方法(引入核函数)自己学习时写了代码,其中书中提到的SVM的经典的优化算法SMO我找到了论文并进行了...原创 2018-09-02 17:14:00 · 826 阅读 · 0 评论 -
《机器学习》 周志华学习笔记第八章 集成学习(课后习题)python实现
1.个体与集成1.1同质集成1.2异质集成2.boosting:代表AdaBoost算法3.Bagging与随机森林3.1Bagging 是并行式集成学习方法最著名的代表(基于自主采样法bootstrap sampling)自己学习时编写了一些代码,参考了一些书上的资料,理论上问题不大,代码上面还是有点问题。习题以后补上https://github.com/mak...原创 2018-09-02 17:18:00 · 842 阅读 · 0 评论