第一章—绪论

机器学习—西瓜书绪论

一 、机器学习

定义:它致力于研究如何通过计算的手段,利用经验改善系统的性能。
机器学习要研究的主要内容就是在计算机上从数据中产生“模型”的算法,即“学习算法”。那么有了这个模型之后,我们就可以将已有的一些数据(经验)源源不断的导入到“学习算法”中,那么它就可以根据这些经验,更好的去解决面对的问题。以书上挑西瓜的事件为例,我们可以事先将一些“好瓜”的有关信息(相当于经验)输入给模型,让它从中去学习,那么只要我们给它的数据量够大,够准确,在下次面对一个瓜是否是好瓜的问题时,模型就会给我们一个较为准确的答案。

二 、基本术语

数据集(data set): 对一个事件或对象的描述的集合。其中的某一个称为“示例(instance)”“样本(sample)”。
属性(attribute): 反映事件或对象在某方面的表现或性质的事项。也称为“特征”。
特征空间(attribute value): 属性张成的空间称为特征空间(attribute space)。如果把一个对象的每一个特征都作为线性空间中的一个“基向量”,也相当于坐标系中的每一个轴,所有的轴张成的空间就称为特征空间。也称为“样本空间(sample space)”、“输入空间(input space)”。
特征向量(feature vector): 每个样本点在特征空间的称呼。
维数(dimensionality): 一般是指特征向量的维数,其实也就是指一个对象(事务)有多少个属性(特征)。
学习(learning):从数据中学得模型的过程称为学习,也称为“训练(training)”。
训练集(training set): 训练样本组成的集合称为训练集。
假设(hypothesis): 学得模型对应了关于数据的某种潜在的规律,这种潜在规律自身称为“真相”。

三 、机器学习分类

监督学习
监督学习:指我们给算法一个数据集,并且给定正确答案。机器通过数据来学习正确答案
的计算方法。
两个任务:分类和回归
分类: 预测连续的、具体的数值,学习器要知道如何区分信息类型,并进行特定对象的识别。
回归: 对各种事物分门别类,用于离散型预测,识别模式和计算结果预测的过程
监督学习算法:
分类:
逻辑回归(Logistic Regression):用于处理因变量为分类变量的回归问题,常见是二分类或也可以处理多分类问题。
决策树(DT:Decision Trees):是一种简单但广泛使用的分类器,通过训练数据构建决策树,对未知的数据进行分类。
朴素贝叶斯(NBC:Naive Bayesian Classification):是基于贝叶斯定理的统计学分类方法,通过预测一个给定的元组属于一个特定类的概率,来进行分类
支持向量机(SVM:Support Vector Machines):把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类
学习向量量化(LVQ:Learning Vector Quantization):是一种人工神经网络算法,允许选择要挂起的训练实例数量,并准确了解这些实例应该是什么样子,属于原型聚类,即试图找到一组原型向量来聚类
回归:
线性回归(LR:Linear Regression):最常用算法之一,期望使用一个超平面拟合数据集(两个变量时为一条直线)
回归树(Regression Tree):决策树的一种,通过将数据集重复分割为不同的分支而实现分层学习,就是用树模型做回归问题,每一片叶子都输出一个预测值。预测值一般是该片叶子所含训练集元素输出的均值
分类+回归:
K邻近(KNN:k-Nearest Neighbors ):通过搜索K个最相似的实例(邻居)的整个训练集并总结那些K个实例的输出变量,对新数据点进行预测
AdaBoost:是一种集合技术,目的就是从训练数据中学习一系列的弱分类器或基本分类器,然后讲这些弱分类器组合成一个强分类器
神经网络(Neural networks):从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络
随机森林(Random forest):指的是利用多棵树对样本进行训练并预测的一种分类器,是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定
受限波尔兹曼机(RBM:Restricted Boltzmann machine):一种可以用于降维、分类、回归、协同过滤、特征学习以及主题建模的算法,可通过输入数据集学习概率分布的随机生成神经网络,是一种生成随机的人工神经网络,可以学习的概率分布在其组输入
无监督学习
无监督学习:就是训练样本中目标变量未被标记。学习器要自己从训练样本数据中发掘规律,按照样本的性质自动分组,本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式
特点:目标不明确、不需要带标签的数据、效果很难评估
无监督学习算法:
聚类:一种自动分类的方法,并不清楚聚类后的几个分类每个代表什么意思
K均值聚类(k-means clustering algorithm):是一种迭代求解的聚类分析算法,先随机选取K个对象作为初试的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离最近的聚类中心,制定分组的数量为K,自动进行分组
层次聚类(hierarchical clustering) :层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构,如果不知道应该分为几类,那么层次聚类就比较适合了。层次聚类会构建一个多层嵌套的分类,类似一个树状结构
最大期望算法(EM:Expectation-Maximization algorithm):是一类通过迭代进行极大似然估计(Maximum Likelihood Estimation, MLE)的优化算法
降维:看上去像压缩。是为了在尽可能保存相关的结构的同时降低数据的复杂度,目标是简化数据。
主成分分析(PCA:Principal Component Analysis):是把多指标转化为少数几个综合指标,主要思想是数据经过某种投影,或者说乘以一个矩阵之后,得到的新的矩阵在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性
奇异值分解 (SVD:Singular Value Decomposition):线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广
线性判别分析(LDA:Linear Discriminant Analysis):一种有监督的(supervised)线性降维算法,模式识别的经典算法,是一种用于统计,模式识别和机器学习的方法,传统上仅限于两类分类问题的分类算法,如果有两个以上的类,则线性判别分析算法是首选的线性分类技术
半监督学习
半监督学习:是介于监督学习和无监督学习得一种算法。本质上,半监督模型将两者结合到自己的一个算法中。其在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低。
强化学习
强化学习(RL:Reinforcement Learning):是机器学习的一种学习方式,它跟监督学习、无监督学习是对应的,并不是某一种特定的算法,而是一类算法的统称,是在连续的尝试和失败序列中,基于标记数据的组合和传入数据的交互来改进自身。

四 假设空间

对于假设空间,谈一下我个人的看法:我之前看过李航老师写的统计学习方法这本书的第一章。书中说到现在的机器学习大多都是建立在基于数据构建概率统计模型从而对数据进行预测而分析的。所以整个书的思路都是从统计角度去介绍各种模型的。那对于统计学习的分类有很多种,因为划分的标准不同嘛,可以按照学习方式去分,就有监督学习,无监督,半监督,强化学习等等,但是其中还有一类分法就是按模型去分类,其中可以分为概率模型与非概率模型,概率模型大多都是以条件概率分布为代表,非概率模型可以理解为以函数为代表。假设空间不仅仅是函数的集合吧,对于那些概率模型来说,它们并非函数吧。假设空间具体是函数的集合还是概率模型的集合,还是得看选择的是哪种模型吧。
以一个例子来说明,例如现在在一个二维空间下,我想把图中的圆圈和叉号分开,那么我去选取机器学习中的某一个模型做这个事,例如我选择支持向量机,那么一个模型是有很多参数的,参数的不同,模型也会不同,那么可以说我借助支持向量机来解决这个事,那么在该模型下的各种形式的支持向量机都会是我的一种选择,其实也都是我的假设,它们构成的集合就是假设空间。我让机器学习的过程,或者说是一步步优化的过程,不正是从从若干个选择中去找最优的过程么,找到了那个最优的支持向量机,不就是相当于找到了真相嘛,所以我理解的假设空间就是解决一个问题时的若干个可能的解法,找最优解法的过程就是机器学习的过程,找到了最优的解法就是真相。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值