机器学习算法(1) 基础入门

目录

简单介绍

基本分类

常见的损失函数

过拟合

交叉验证

监督学习中的生成模型和判别模型

监督学习应用

分类问题

标注问题

回归问题

评价指标


简单介绍

统计学习也被称为统计机器学习,统计学习的方法是基于数据构建概率统计模型从而对数据进行预测和分析。统计学习方法由三要素组成:模型+策略+算法。

实现统计学习算法的步骤:

(1) 得到一个有限的训练数据集合。

(2) 确定包含所有可能的模型的假设空间,即学习模型的集合。

(3) 确定模型选择的准则,即学习的策略。

(4) 实现求解最优模型的算法,即学习的算法。

(5) 通过学习方法选择最优模型。

(6) 利用学习的最优模型对新数据进行预测或分析。

基本分类

监督学习:是指从标注数据中学习预测模型的机器学习问题。也就是从训练数据集合中学习模型,对测试数据进行预测。本质上是学习输入到输出的映射的统计规律。

无监督学习:是指从无标注数据中学习预测模型的机器学习问题。本质上是学习数据中的统计规律或潜在结构。模型可以实现对数据的聚类、降维或概率估计。

强化学习:是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质上是学习最优的序贯决策。

半监督学习:是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常少量标注数据,大量未标注数据。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。

主动学习:是指机器不断主动给出实例让教师去标注,然后利用标注数据学习预测模型的机器学习问题。

常见的损失函数

Y表示真实值,f(x) 表示预测值。损失函数越小,模型就越好。

(1) 0-1 损失函数

 (2) 平方损失函数

(3) 绝对损失函数

 (4) 对数损失函数

过拟合

过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对一直数据预测的很好,但对未知数据预测得很差的现象。

下图表示了 训练误差和测试误差与模型复杂度的关系。当模型 的复杂度增大时,训练误差会逐渐减小并趋于0;而测试误差会先减小,达到最小值之后又增大。当选择的模型复杂度过大时,就会出现过拟合。所以我们选择最优的模型时,往往以达到使测试误差最小为学习目的。

 

交叉验证

交叉验证是模型选择的一种方法。如果给定的样本充足,进行模型选择的一种简单方法就是随机地将数据分为三部分,训练集,验证集和测试集,其中训练集用来训练模型,验证集用来模型的选择,测试集用于最终对学习方法的评估。但是在许多实际应用中数据都是不充足的,此时为了选择好的模型,可以采用交叉验证的方法。

(1) 简单交叉验证

随机将数据分为训练数据(占70%)和测试数据(占30%);然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。

(2) S折交叉验证

首先随机将数据切分为S 个互不相交、大小相同的子集;然后利用S-1 个子集的数据训练模型,利用余下的子集测试模型,从而得到不同的模型;将这一过程对可能的S种选择重复进行;最终选出S次评测中平均测试误差最小的模型。

(3) 留一交叉验证

S折交叉验证的特殊情形是S=N,称为留一交叉验证,往往在数据最缺乏的情况下使用。这里,N是给定的数据集的容量。

监督学习中的生成模型和判别模型

生成模型:朴素贝叶斯法和隐马尔科夫模型。

判别模型:K 近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。

监督学习应用

分类问题

在监督学习中,将当输出变量取有限个离散值时,预测问题便成为分类问题。这时,输入变量可以是离散的,也可以是连续的。

常用的统计学习方法:K近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。

标注问题

 标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。

标注常用的统计学习方法:隐马尔可夫模型、条件随机场。

回归问题

回归用于预测输入变量和输出变量之间的关系,特别是当输入变量 的值发生变化时,输出变量的值随之发生的变化。回归问题按照输入变量的个数分为:一元回归和多元回归。按照输入变量和输出变量之间的关系的类型即模型的类型,分为线性回归和非线性回归

回归问题最常用的损失函数是平方损失函数,在此情况下,回归问题可以由最小二乘法求解。 

评价指标

TP将正类预测为正类数
FN将正类预测为负类数
FP将负类预测为正类数
TN将负类预测为负类数

 精确率:P=TP/TP+FP

 召回率:R=TP/TP+FN

 F1值:   F1=2/(1/P+1/R)=2*(P*R)/(P+R)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值