![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 62
辉哥仔Chilam
这个作者很懒,什么都没留下…
展开
-
周志华 机器学习 Day1
绪论机器学习致力于研究如何通过计算手段,利用经验来改善系统自身的性能。我们收集了一组数据记录,成为“数据集”,每条记录是关于一个事件或者对象,成为“样本”,反映事件或对象在某方面的额表现或性质的事项,称为“属性”或“特征”。一般地,令 D = {X1,X2,....,Xm } 表示包含 m 个示例的数据集,每个示例由 d 个属性描述(例如上面的西瓜数据使用了3个属性),则每个示例Xi = (Xi1...原创 2018-06-29 23:24:38 · 2263 阅读 · 0 评论 -
周志华 机器学习 Day26
学习与推断基于概率图模型定义的联合概率分布,我们能对目标变量的边际分布或以某些可观测变量为条件的条件分布进行推断。边际分布是指对无关变量求和或积分后得到的结果,例如在马尔可夫网中,变量的联合分布呗表示成极大团的势函数乘积,于是,给定参数θ求解某个变量x的分布,就编程对联合分布中其他无关变量进行积分的过程,这称为“边际化”。对概率图模型,还需确定具体分布的参数,这称为参数估计或参数学习问题,...原创 2018-07-24 23:36:36 · 565 阅读 · 0 评论 -
周志华 机器学习 Day9
支持向量机间隔与支持向量给定训练样本集D,分类学习最基本想法就是基于训练集D在样本空间中找到一个划分超平面,将不用类别的样本分开。在样本空间中,划分超平面可通过如下线性方程来描述:其中w为法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离。样本空间中任一点x到到超平面(w,b)的距离可写为假设超平面(w,b)能将训练样本正确分类,即对于(xi,yi)∈D,有如下图所示,距离超平面...原创 2018-07-07 23:21:03 · 489 阅读 · 0 评论 -
周志华 机器学习 Day15
聚类聚类任务在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。次来学习任务中研究最多、应用最广的是“聚类”。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。性能度量聚类性能度量亦称聚类“有效性指标”,与监督学习性能度量作用相似,对聚类结果,我们需通过某种性能度量来评估其好坏;另一方...原创 2018-07-13 23:35:23 · 283 阅读 · 0 评论 -
周志华 机器学习 Day21
计算学习理论基础知识计算学习理论研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。后面需要用到的几个常用不等式为:PAC学习概率近似正确(简称PAC)是计算学习理论中最基本的学...原创 2018-07-19 23:20:34 · 436 阅读 · 0 评论 -
周志华 机器学习 Day16
密度聚类密度聚类亦称“基于密度的聚类”,此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。DBSCAN是一种著名的密度聚类算法,它基于一组“领域”参数来刻画样本分布的紧密程度。层次聚类层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚...原创 2018-07-15 00:07:12 · 253 阅读 · 0 评论 -
周志华 机器学习 Day27
规则学习基本概念机器学习中的“规则”通常是指语义明确、能描述数据分布所隐含的客观规律或领域概念、可写成“若·······,则········”形式的逻辑规则。“规则学习”是从训练数据中学习出一组能用于对未见示例进行判别的规则。与神经网络、支持向量机这样的“黑箱模型”相比,规则学习具有更好的...原创 2018-07-25 23:30:48 · 363 阅读 · 0 评论 -
周志华 机器学习 Day30
有模型学习模型已知:机器已对环境进行了建模,能在机器内部模拟出与环境相同或近似的状况。在已知模型的环境中的学习称为“有模型学习”。1、策略评估在模型已知时,对任意策略π能估计出该策略带来的期望累积奖赏,令函数表示从状态x出发,使用策略π所带来的累积奖赏;函数表示从状态x出发,执行动作α后再使用策略π带来的累积奖赏。这里的称为“状态值函数”,称为“状态-动作值函数”,分别表示指定“状态”...原创 2018-07-28 23:35:03 · 843 阅读 · 0 评论 -
周志华 机器学习 Day22
VC维现实学习任务所面对的通常是无限假设空间,例如实数域中的所有区间、Rd空间中的所有线性超平面。欲对此种情形的可学习性进行研究,需度量假设空间的复杂度。最常见的方法是考虑假设空间的“VC维”。VC维的正式定义如下:表明存在大小为d的示例集能被假设空间H打散(假设空间H能实现示例集D上的所有对分(H中的假设对D中示例赋予标记的每种可能结果称为对D的一种“对分”),则称为示例集D能被...原创 2018-07-20 23:25:22 · 303 阅读 · 0 评论 -
周志华 机器学习 Day17
低维嵌入上一节讨论是基于一个重要假设:任意测试样本x附近任意小的距离范围内总能找到一个训练样本,即训练样本的采样密度足够大,或称为“密度采样”。但是,这个假设在现实任务中通常很难满足。事实上,在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”。而缓解该灾难的一个重要途径是降维,亦称“维数约简”,即通过某种数学变换将原始高维属性空间转变为一个...原创 2018-07-15 23:43:06 · 264 阅读 · 0 评论 -
周志华 机器学习 Day23
半监督学习未标记样本未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布采样而来,则它们所包含的关于数据分布的信息对建立模型将大有裨益。下图给出了一个示例,若仅基于图中的一个正例和一个反例,则由于待判别样本恰位于两者正中间,大体上只能随机猜测;若能观察到图中的未标记样本...原创 2018-07-21 23:18:04 · 599 阅读 · 0 评论 -
周志华 机器学习 Day28
一阶规则学习一阶规则学习能容易引入领域知识,一般有两种做法:在现有属性的基础上基于领域知识构造出新属性,或基于领域知识设计某种函数机制(例如正则化)来对假设空间加以约束。然而,现实任务中并非所有的领域知识都能容易地通过属性重构和函数约束来表达。FOIL是著名的一阶规则学习算法,它遵循序贯覆盖框架切采用自顶向下的规则归纳策略。由于逻辑变量的存在,FOIL在规则生成时需考虑不同的变量组合。 ...原创 2018-07-26 23:56:08 · 376 阅读 · 0 评论 -
周志华 机器学习 Day24
图半监督学习给定一个数据集,我们可将其映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的“强度”正比于样本之间的相似度(或相关性)。我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色。于是,半监督学习就对应于“颜色”在图上扩散或传播的过程。由于一个图对应了一个矩阵,这就使得我们能基于矩阵运算来...原创 2018-07-22 23:42:58 · 310 阅读 · 0 评论 -
周志华 机器学习 Day29
强化学习任务与奖赏通过不断的摸索、学习,能总结出好的学习策略,这个过程抽象出来,就是“强化学习”。强化学习任务通常用马尔可夫决策过程(简称MDP)来描述:机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述;机器能采取的动作构成了空间A;若某个动作a∈A作用在当...原创 2018-07-27 23:20:44 · 270 阅读 · 0 评论 -
周志华 机器学习 Day8
我们以上图隐层到输出层的连接权whj为例推导:BP算法基于梯度下降策略,以目标的负梯度方向对参数进行调整,对的误差Ek,给定学习率η,有往下推导过程详看P103起Sigmoid函数有一个很好的性质:f'(x)=f(x)(1-f(x))一般地,我们把学习率η∈(0,1)设置成0.1,这样不会导致太大容易震荡,太小收敛速度过慢。误差逆传播算法一般来说,标准BP算法仅针对单个样例,参数更新非常频繁,而且...原创 2018-07-06 23:16:39 · 267 阅读 · 0 评论 -
周志华 机器学习 Day20
嵌入式选择与L1正则化嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。给定数据集D=,其中x∈R,y∈R。我们考虑最简单的线性回归模型,以平方误差为损失函数,则优化目标为当样本特征很多,而样本数相对较少时,上式容易陷入过拟合。为了缓解过拟合问题,可对上式引入正则化项,若使用L2范数正则化。其中正则...原创 2018-07-18 23:39:03 · 146 阅读 · 0 评论 -
周志华 机器学习 Day14
结合策略学习器结合可能会从三个方面带来好处: 首先,从统计的方面来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳,结合多个学习器则会减小这一风险;第二,从计算的方面来看,学习算法往往会陷入局部极小,有的局部极小点所对应的泛化性能可能很糟糕 ,而通过多次运行之后进行结合,可降低陷入糟糕局部极小点的风险;第三, 从表示的方面来看...原创 2018-07-12 23:53:22 · 254 阅读 · 0 评论 -
周志华 机器学习 Day2
模型评估与选择经验误差与过拟合通常,分类错误的样本数占样本总数的比例称为“错误率”,即是m个样本中a个样本分类错误,错误率为E=a/m;同时,1-E称为“精度”;学习器的真实输出与预测输出的差异称为“误差”,误差常分为“训练误差”(训练集)和“泛化误差”(新样本)。当然,机器学习时对于样本学习得过好或者过坏,都将导致“过拟合”或是“欠拟合”现象。对于上述的想象,欠拟合解决的方法是:(1)在决策树学...原创 2018-06-30 22:57:47 · 1282 阅读 · 3 评论 -
周志华 机器学习 Day3
模型评估与选择性能度量查准率、查全率与F1例如,在信息检索中,我们常常关心的是“检索出的信息中有多少比例是用户感兴趣的”,“查准率”与“查全率”更为适合。对于二分类的问题,可将样例根据真实类别与学习器预测类别的组合划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),则TP+FP+TN+FN=样例总数,分类结果的混淆矩阵如下图。查准率P与查全率R分别定义为:一般来说,查准率与查全率...原创 2018-07-01 22:26:20 · 703 阅读 · 0 评论 -
周志华 机器学习 Day10
软间隔与正则化现实任务中,往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,几遍恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的。缓解该问题的一个办法是允许支持向量机在一些样本上出错。为此,要引入“软间隔”。软间隔表示,允许某些样本不满足约束。常用的替代损失函数有同时,对软间隔支持向量机,KKT条件要求支持向量回归现在考虑的...原创 2018-07-08 23:02:51 · 508 阅读 · 0 评论 -
周志华 机器学习 Day4
偏差和方差“偏差-方差分解”是解释学习算法泛化性能的一种重要工具,其试图对学习算法的期望泛化错误率进行拆解。对测试样本x,令 yD为x在数据集中的标记,y为x的真实标记,f(x;D)的意思是在训练集D上学得的模型f在x上的预测输出,以回归任务为例,学习算法的期望预测为通过简单的多项式展开合并,可对算法的期望泛化误差进行分解:也就是说,泛化误差可分解为偏差、方差与噪声之和。一句话来说,偏差反映了拟合...原创 2018-07-02 23:02:07 · 255 阅读 · 0 评论 -
周志华 机器学习 Day11
贝叶斯分类器贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。假设有N种可能的类别标记,即y={c1,c2,.....,cN},是将一个真实标记为cj的样本误分类为ci所产生的损失,基于后验概率P(ci | x)可获得将样本x分类为ci所产生的期望损失,即在样本x上的“条件风险”...原创 2018-07-09 22:18:35 · 477 阅读 · 0 评论 -
周志华 机器学习 Day5
线性回归模型简写为假设,我们认为示例所对应的输出标记是在指数尺度上的变化,那就可以将输出标记的对数作为线性模型逼近的目标,即上述即“对数线性回归”,实际上是在试图让逼近y,上式形式上仍是线性回归,但是实际已是在求取输入空间到输出空间的非线性函数映射,如下图。这里的对数函数起到了将线性回归模型的预测与真实标记联系起来的作用。对数几率回归对于分类任务,寻找一个单调可微函数将分类任务的真实标记y与现行回...原创 2018-07-03 23:05:28 · 354 阅读 · 0 评论 -
周志华 机器学习 Day18
流形学习流形学习是一类借鉴了拓扑流形概念的降维方法。“流形”是在局部与欧式空间同胚的空间,换言之,它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。这给降维方法带来了很大的启发:若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去复杂,但在局部上仍具有欧式空间的性质,因此,可以容易地在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。当维数降至二维或三维时,能对数据进...原创 2018-07-16 23:52:19 · 218 阅读 · 0 评论 -
周志华 机器学习 Day12
半朴素贝叶斯分类器为了降低贝叶斯公式中估计后验概率P(c | x)的困难,使得人们对属性条件独立性假设进行一定程度的放松,称为“半朴素贝叶斯分类器”的学习方法。基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”是半朴素贝叶斯分类器最常用的一种策略。顾名思义,所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他...原创 2018-07-10 22:23:47 · 527 阅读 · 0 评论 -
周志华 机器学习 Day6
决策树决策树是一类常见的机器学习方法,其是基于“树”的结构进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。以西瓜好坏的机器学习任务构建决策树如下图。一般地,一棵决策树包括一个根节点、若干个内部节点和若干个叶结点;叶结点对应于决策结果,其余结点对应于一个属性测试。从根结点到每个叶结点的路径对应了一个判定测试序列。以下是决策树学习基本算法显然,决策树是一种递归过程。我们可从中得知,具有三种...原创 2018-07-04 23:37:41 · 207 阅读 · 0 评论 -
周志华 机器学习 Day13
集成学习个体与集成集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。上图显示出集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生,例如C4.5决策树算法、BP神经网络算法等,此时集成中只包含同种类型的个体学习器,称为“同质”的。同质集成中的个体学习器亦称“基学习器”,相应的学习算法称...原创 2018-07-11 23:43:22 · 315 阅读 · 0 评论 -
周志华 机器学习 Day19
特征选择与稀疏学习子集搜索与评价对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些属性则可能没什么用。我们将属性称为“特征”,对当前学习任务有用的属性称为“相关特征”,没什么用的属性称为“无关特征”;从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。特征选择是一个重要的“数据预处理”过程...原创 2018-07-17 23:28:45 · 195 阅读 · 0 评论 -
周志华 机器学习 Day25
概率图模型隐马尔可夫模型机器学习最重要的任务,是根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测。概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概率模型中,利用已知变量推测未知变量的分布称为“推断”,其核心是如何基于可观测变量推测出未知变...原创 2018-07-23 23:25:31 · 180 阅读 · 0 评论 -
周志华 机器学习 Day7
剪枝处理剪枝 (pruning)是决策树学习算法对付"过拟合"的主要手段。决策树剪枝的基本策略有"预剪枝"和"后剪枝 "。预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分,并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则...原创 2018-07-05 22:48:50 · 967 阅读 · 0 评论 -
机器学习实战--k邻近算法
k邻近算法基于距离的测量,选取距离最近的特征值,即为预测的结果。该算法是一种监督算法,基于大量数据的基础上,做出相应的预测,一般运用于手写数字识别,约会网站的大量数据匹配等等。其优点是:精度高,对异常值不敏感,无数据输入假定其缺点是:计算复杂度高,空间复杂度高适用数据范围是:数值型和标称型 首先,需要导入需要的库from numpy import *import ope...原创 2019-01-13 19:02:40 · 270 阅读 · 0 评论