1.机器学习基本概念



所谓学习:本质就是找到特征和标签间的关系。

监督学习:
(1)就是常说的分类,通过已有的训练样本去训练一个最优模型。再利用模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。
(2)对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里所有的标记(分类)都是已知的。因此,训练样本的歧义性低。

监督学习划分:
(1)回归分析(Regression Analysis):数据集是给定一个函数和他的一些坐标点,然后通过回归分析的算法,来估计原函数的模型,求出一个最符合这些已知数据集的函数解析式。从而预估其他未知输出数据,输入自变量根据模型解析式输出因变量,这些自变量就是特征向量,因变量就是标签。而且标签的值是建立在连续范围的。
(2)分类(Classification):数据集,由特征向量和标签组成,学习这些数据后,给定一个不知道标签的特征向量,从而求出标签是哪一个,和回归的主要区别为输出结果是离散的还是连续的。

监督学习方法:
(1)生成方法:混合高斯模型,朴素贝叶斯法,隐形马尔科夫模型->生成模型
(2)判别方法:SVM,逻辑回归->判别模型

生成模型:对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最大的yi,即:
常见的生成模型:隐马尔科夫模型HMM,朴素贝叶斯模型NB,高斯混合模型GMM,Latent Dirichlet Allocation(LDA)等。
判别模型:直接对条件概率p(y|x;0-)建模,常见模型:线性回归模型,线性判别分析,支持向量机SVM,神经网络



非监督学习:
(1)和监督学习的不同之处在于实现没有任何训练样本,需要直接对数据进行建模。
(2)对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。治理所有的标记(分类)都是未知的。因此,训练样本的歧义性高。


深度学习:机器学习中一种基于对数据进行表征学习的方法,深度学习的好处是使用非监督或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
(1)深度神经网络(DNN: Deep Neural Network)
(2)卷积神经网络(CNN: Convolutional Neural Network)
(3)深度置信网络(DBN: Deep Belief Network)
(4)递归神经网络(RNN: Recurrent Neural Network)



四种变量类型:
定类数据(Nominal) : 类别变量, 表示个体在属性上的特征或类别上的不同变量, 仅
仅是一种标志, 没有序次关系(不可进行四则运算)。 比如: 性别。(one-hot编码)

定序数据(Ordinal) : 类别变量, 用数字表示个体在某个有序状态中所处的位置(不
可进行四则运算) 。 比如: 受教育程度: 文盲, 小学, 初中, 大学, 硕士研究生, 博士(自然数)

定距数据(Interval):连续变量, 具有间距特征得变量,有单位 0 点没有意义(可以
加减, 不可以乘除) 。 比如: 温度

变比数据(Ratio):有绝对零点(有意义) , 有测量单位(可以进行四则运算) 。 比
如: 职工人数, 身高。

按照模型目的区分变量:
特征(Feature,Predictor,Independent Variable) : 对数据的一种表达方式: 特征应当
是包含信息(informative),有区别的(discriminative) 与独立的(independent) 。
响应(Response, Dependent Variable):指的是输出的变量。
机器学习术语:
模型(model):计算机层面的认知
学习算法(learning algorithm),从数据中产生模型的方法
数据集(data set):一组记录的合集
示例(instance):对于某个对象的描述
样本(sample):也叫示例
属性(attribute):对象的某方面表现或特征
特征( feature):同属性
属性值(attribute value): 属性上的取值
属性空间(attribute space): 属性张成的空间
样本空间/输入空间(samplespace): 同属性空间
特征向量(feature vector): 在属性空间里每个点对应一个坐标向量, 把一个示例称作
特征
维数(dimensionality): 描述样本参数的个数(也就是空间是几维的)
学习(learning)/训练(training):从数据中学得模型
训练数据(training data): 训练过程中用到的数据
训练样本(training sample) :训练用到的每个样本
训练集(training set):训练样本组成的集合
假设(hypothesis):学习模型对应了关于数据的某种潜在规则
真相(group-true):真正存在的潜在规律
学习器(learner):模型的另一种叫法, 把学习算法在给定数据和参数空间的实例化
预测(prediction): 判断一个东西的属性
标记(label): 关于示例的结果信息, 比如我是一个“好人”。
样例(example): 拥有标记的示例
标记空间/输出空间(label space) : 所有标记的集合
分类(classification) : 预测时离散值, 比如把人分为好人和坏人之类的学习任务
回归(regression) : 预测值时连续值, 比如你的好人程度达到了 0.9, 0.6 之类的
二分类(binary classification) : 只涉及两个类别的分类任务
正类(positive class) : 二分类里的一个, 通常标签为 1
反类(negative class) : 二分类里的另外一个.通常标签为 0
多分类(multi-class classification) : 涉及多个类别的分类
测试(testing) : 学习到模型之后对样本进行预测的过程
测试样本(testing sample) : 被预测的样本
聚类(clustering) : 把训练集中的对象分为若干组
簇(cluster) : 每一个组叫簇
监督学习(supervised learning) : 典范--分类和回归
无监督学习(unsupervised learning) : 典范--聚类
未见示例(unseen instance) : “新样本“, 没训练过的样本
泛化(generalization) 能力: 学得的模型适用于新样本的能力
分布(distribution) : 样本空间的全体样本服从的一种规律
独立同分布(independent and identically distributed, 简称 i,i,d.) :获得的每个样本都是
独立地从这个分布上采样获得的。
泛化(generalization) : 机器学习模型学习到的概念在它处于学习的过程中时模型没有
遇见过的样本时候的表现, 好的机器学习模型的模板目标是从问题领域内的训练数据到任意
的数据上泛化性能良好。 在机器学习领域中, 当我们讨论一个机器学习模型学习和泛化的好
坏时, 我们通常使用术语: 过拟合和欠拟合。
过拟合(over-fitted) : 过拟合指的是 referstoa 模型对于训练数据拟合程度过当的情况。
当某个模型过度的学习训练数据中的细节和噪音, 以至于模型在新的数据上表现很差, 我们
称过拟合发生了。 这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。 而
问题就在于这些概念不适用于新的数据, 从而导致模型泛化性能的变差。
欠拟合(under-fitted) : 欠拟合指的是模型在训练和预测时表现都不好的情况。 一个欠
拟合的机器学习模型不是一个良好的模型并且由于在训练数据上表现不好这是显然的。






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值