ML
文章平均质量分 78
努力进行光合作用
--生活像一场长跑,起点低并没有固定到达终点时的高度。
--嗯,生命是一个长久、不断积累的过程。
展开
-
周志华《Machine Learning》学习笔记(4)--线性模型
笔记的前一部分主要是对机器学习预备知识的概括,包括机器学习的定义/术语、学习器性能的评估/度量以及比较,本篇之后将主要对具体的学习算法进行理解总结,本篇则主要是第3章的内容--线性模型。原创 2016-12-11 15:20:12 · 5091 阅读 · 1 评论 -
周志华《Machine Learning》学习笔记(11)--聚类
上篇主要介绍了一种机器学习的通用框架–集成学习方法,首先从准确性和差异性两个重要概念引出集成学习“好而不同”的四字真言,接着介绍了现阶段主流的三种集成学习方法:AdaBoost、Bagging及Random Forest,最后简单概述了集成模型中的三类结合策略:平均法、投票法及学习法,其中Stacking是学习法的典型代表。本篇将讨论无监督学习中应用最为广泛的学习算法–聚类。原创 2017-04-29 23:45:49 · 7414 阅读 · 2 评论 -
周志华《Machine Learning》学习笔记(12)--降维与度量学习
上篇主要介绍了几种常用的聚类算法,首先从距离度量与性能评估出发,列举了常见的距离计算公式与聚类评价指标,接着分别讨论了K-Means、LVQ、高斯混合聚类、密度聚类以及层次聚类算法。K-Means与LVQ都试图以类簇中心作为原型指导聚类;高斯混合聚类采用高斯分布来描述类簇原型;密度聚类则是将一个核心对象所有密度可达的样本形成类簇;层次聚类是一种自底向上的树形聚类方法。本篇将讨论机器学习常用的方法--降维与度量学习。原创 2017-05-15 10:55:53 · 24463 阅读 · 2 评论 -
周志华《Machine Learning》学习笔记(13)--特征选择与稀疏学习
上篇主要介绍了经典的降维方法与度量学习,首先从“维数灾难”导致的样本稀疏以及距离难计算两大难题出发,引出了降维的概念,即通过某种数学变换将原始高维空间转变到一个低维的子空间,接着分别介绍了kNN、MDS、PCA、KPCA以及两种经典的流形学习方法,最后度量学习试图去学习出一个距离度量来等效降维的效果。本篇将讨论另一种常用方法–特征选择与稀疏学习。原创 2017-06-04 18:51:40 · 14046 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(14)--计算学习理论
上篇主要介绍了常用的特征选择方法及稀疏学习。分别介绍了子集搜索与评价、过滤式、包裹式以及嵌入式四种类型的特征选择方法:子集搜索与评价是一种优中生优的贪婪算法;过滤式计算相关统计量来评判特征的重要程度;包裹式将学习器作为特征选择的评价准则;嵌入式则是通过L1正则项将特征选择融入到学习器参数优化的过程中,最后介绍了稀疏表示与压缩感知的思想。本篇将讨论一种为机器学习提供理论保证的学习方法--计算学习理论。原创 2017-06-16 21:39:13 · 5964 阅读 · 2 评论 -
周志华《Machine Learning》学习笔记(15)--半监督学习
上篇主要介绍了机器学习的理论基础,首先介绍了PAC可学习的基本概念,对于有限假设空间:可分情形时,假设空间都是PAC可学习的;不可分情形时,假设空间都是不可知PAC可学习的。对于无限假设空间,通过VC维来描述其复杂度,若学习算法满足ERM原则,则任何VC维有限的假设空间都是(不可知)PAC可学习的。稳定性则考察的是输入变化时输出的波动。本篇将讨论一种介于监督与非监督学习之间的学习算法--半监督学习。原创 2017-07-04 22:16:32 · 24114 阅读 · 1 评论 -
周志华《Machine Learning》学习笔记(16)--概率图模型
上篇主要介绍了半监督学习,首先从如何利用未标记样本所蕴含的分布信息出发,引入了半监督学习的基本概念,接着分别介绍了常见的半监督学习方法:生成式方法基于对数据分布的假设,使得模型参数估计更加准确;TSVM给未标记样本赋予伪标记,并通过不断调整易出错样本的标记得到最终输出;基于分歧的方法使用多个学习器协同训练;最后半监督聚类则是借助已有的监督信息来辅助聚类的过程。本篇将讨论一种基于图的学习算法--概率图模型。原创 2017-07-13 19:40:01 · 11219 阅读 · 2 评论 -
周志华《Machine Learning》学习笔记(17)--强化学习
上篇主要介绍了概率图模型,首先引出概率图模型的基本概念;接着分别介绍了隐马尔可夫模型、马尔可夫随机场、条件随机场、精确推断方法以及LDA模型:HMM围绕着评估/解码/学习三个问题展开论述;MRF基于团和势函数来定义联合概率分布;CRF引入两种特征函数对状态序列进行打分;变量消去与信念传播在给定联合分布后计算边际分布;LDA话题模型则试图去推断给定文档所蕴含的话题分布。本篇将介绍最后一种学习算法--强化学习。原创 2017-07-20 19:52:16 · 29608 阅读 · 12 评论 -
GBDT&GBRT与XGBoost
在看清华学霸版《Python大战机器学习》的过程中,集成学习章节中出现了两个新的名词:**GBDT**&**GBRT**,也许是西瓜书定位于全面,而没有拘泥于细节。后来科普发现,这两个东西和陈天奇大神的XGBoost紧密相连,于是估摸着花时间弄懂这两个东西。原创 2017-07-31 13:17:44 · 9988 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(10)--集成学习
上篇主要介绍了鼎鼎大名的EM算法,从算法思想到数学公式推导(边际似然引入隐变量,Jensen不等式简化求导),EM算法实际上可以理解为一种坐标下降法,首先固定一个变量,接着求另外变量的最优解,通过其优美的“两步走”策略能较好地估计隐变量的值。本篇将继续讨论下一类经典算法–集成学习。原创 2017-04-14 16:02:47 · 8586 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
上篇主要介绍和讨论了支持向量机。从最初的分类函数,通过最大化分类间隔,max(1/||w||),min(1/2||w||^2),凸二次规划,朗格朗日函数,对偶问题,一直到最后的SMO算法求解,都为寻找一个最优解。接着引入核函数将低维空间映射到高维特征空间,解决了非线性可分的情形。最后介绍了软间隔支持向量机,解决了outlier挤歪超平面的问题。本篇将讨论一个经典的统计学习算法–贝叶斯分类器。原创 2017-03-26 22:08:44 · 6283 阅读 · 1 评论 -
周志华《Machine Learning》 学习笔记系列(1)
机器学习是目前信息技术中最激动人心的方向之一,其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。本文为清华大学最新出版的《机器学习》教材的Learning Notes,书作者是南京大学周志华教授,多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。原创 2016-11-19 13:48:27 · 17441 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(2)--性能度量
本篇主要是对第二章剩余知识的理解,包括:性能度量、比较检验和偏差与方差,写到后面发现篇幅冗长读起来十分没有快感,故本篇主要知识点为性能度量。原创 2016-11-20 17:15:23 · 7640 阅读 · 5 评论 -
周志华《Machine Learning》学习笔记(3)--假设检验、方差与偏差
本篇延续上一篇的内容,主要讨论了比较检验、方差与偏差。原创 2016-12-04 19:39:27 · 14829 阅读 · 13 评论 -
周志华《Machine Learning》学习笔记(5)--决策树
上篇主要介绍和讨论了线性模型。首先从最简单的最小二乘法开始,讨论输入属性有一个和多个的情形,接着通过广义线性模型延伸开来,将预测连续值的回归问题转化为分类问题,从而引入了对数几率回归,最后线性判别分析LDA将样本点进行投影,多分类问题实质上通过划分的方法转化为多个二分类问题进行求解。本篇将讨论另一种被广泛使用的分类算法--决策树(Decision Tree)。原创 2016-12-13 09:45:39 · 8567 阅读 · 2 评论 -
周志华《Machine Learning》学习笔记(6)--神经网络
上篇主要讨论了决策树算法。首先从决策树的基本概念出发,引出决策树基于树形结构进行决策,进一步介绍了构造决策树的递归流程以及其递归终止条件,在递归的过程中,划分属性的选择起到了关键作用,因此紧接着讨论了三种评估属性划分效果的经典算法,介绍了剪枝策略来解决原生决策树容易产生的过拟合问题,最后简述了属性连续值/缺失值的处理方法。本篇将讨论现阶段十分热门的另一个经典监督学习算法–神经网络。原创 2016-12-20 19:36:24 · 19491 阅读 · 9 评论 -
周志华《Machine Learning》学习笔记(7)--支持向量机
上篇主要介绍了神经网络。首先从生物学神经元出发,引出了它的数学抽象模型–MP神经元以及由两层神经元组成的感知机模型,并基于梯度下降的方法描述了感知机模型的权值调整规则。由于简单的感知机不能处理线性不可分的情形,因此接着引入了含隐层的前馈型神经网络,BP神经网络则是其中最为成功的一种学习方法。本篇围绕的核心则是另一种监督学习算法–支持向量机(Support Vector Machine),简称SVM。原创 2017-01-21 22:05:53 · 6652 阅读 · 6 评论 -
周志华《Machine Learning》学习拓展知识--经验风险与结构风险
在前面几章的笔记中,都出现了“正则化”这个看似神秘的东西,具体包括:(1)线性模型的最小二乘法中出现非满秩或正定矩阵的情形,从而引入正则化解决了求逆矩阵的难题;(2)BP神经网络为了避免过拟合而引入的正则项;(3)“软间隔”支持向量机在优化目标中添加的正则项或惩罚项。下面将主要围绕这三个方面来阐述经验风险与结构风险。原创 2017-02-13 15:57:35 · 1589 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(9)--EM算法
上篇主要介绍了贝叶斯分类器,从贝叶斯公式到贝叶斯决策论,再到通过极大似然法估计类条件概率,贝叶斯分类器的训练就是参数估计的过程。朴素贝叶斯则是“属性条件独立性假设”下的特例,它避免了假设属性联合分布过于经验性和训练集不足引起参数估计较大偏差两个大问题,最后介绍的拉普拉斯修正将概率值进行平滑处理。本篇将介绍另一个当选为数据挖掘十大算法之一的EM算法。原创 2017-03-31 14:26:41 · 3965 阅读 · 1 评论