Task02:机器学习基础

1 基本概念

**

1.1 什么是机器学习

**
从已知数据中获取规律,并运用规律预测未知数据的技术。

**

1.2 机器学习的分类

**
(1)有监督学习:跟学师评
(2)无监督学习:自学标评
(3)强化学习:自学自评

**

1.3 机器学习的任务

**
(1)有监督学习:分类、回归
(2)无监督学习:聚类、降维
有监督学习和无监督学习的任务

2 数据集

**

2.1 定义

**
数据集:观测样本的集合。

**

2.2 数据集的分类

**
(1)训练集:用于训练模型的参数
(2)验证集:用于调整模型的参数,对模型的效果做初步验证
(3)测试集:用于测试模型的泛化能力

**

3 误差分析

**
**

3.1 误差的概念

**
误差是指算法实际预测输出与样本真实输出之间的差异,eg:训练误差(训练集上)、测试误差(测试集上)、泛化误差(总体样本上)。 机器学习的目标就是要减少误差。

**

3.2 过拟合和欠拟合

**
(1) 概念
①过拟合:模型在训练集上误差小,在测试集上误大(“只会学习,不会考试”)。
②欠拟合:模型在训练集、测试集上的误差都大(“既不会学习,又不会考试”)。

(2) 措施
①对于过拟合:减少参数、降低模型复杂度、正则化等。
②对于欠拟合:调整参数、增加迭代深度、选择更复杂的模型等。

**

3.3 泛化误差分析

**
(1)泛化误差计算公式:
在这里插入图片描述
(2)偏差:反映模型在样本上的期望输出与真实值之间的差距。→ 模型本身的精度

(3)方差:反映模型在不同训练数据集下学得的函数的输出与期望输出的误差。→ 模型的波动情况
方差、偏差高低时数据的分布情况
结合方差与偏差的概念,过拟合,即:低偏差高方差;欠拟合,即:高偏差低方差。
下图是模型复杂度与误差的关系图。
模型的复杂度与误差的关系
上图中,红色圈圈表示欠拟合,蓝色圈圈表示过拟合。

**

3.4 交叉验证

**
K折交叉验证:将数据集分为K分,其中的K-1份作为训练集,剩下的1分作为验证集,在训练集上得到模型参数后,在验证集上计算误差。留一交叉验证(将数据子集划分的数量等于样本数)是K这交叉验证的特例。

**

4 有监督学习

**
**

4.1 有监督学习概述

**
①数据集有答案;
②数据集表示为:(xi, yi),其中yi∈Y,是xi对应的值(类别或者具体数值),根据数据集D={(x1, y1), (x2, y2), …, (xn, yn)},训练出模型 f_hat(x),使得f_hat(xi)的值接近yi;
③上述的yi∈Y,若yi为离散值,则模型任务是分类;若yi为连续值,则模型任务是回归。

**

4.2 线性回归

**
(1)线性回归的一般形式
在这里插入图片描述

(2)线性回归的目标
在这里插入图片描述
**

4.3 逻辑回归

**
逻辑回归是利用Sigmoid函数的特性,将线性回归得到的值压缩在0~1之间,转换为某一个数据yi为正例的可能性,逻辑回归的形式如下:
在这里插入图片描述

**

4.4 SVM

**
(1)SVM基本思想
在数据空间中,建立一个超平面,能够将数据样本划分开。

(2)SVM的形式
①对于线性可分的数据
在这里插入图片描述
②对于线性不可分的数据
特征空间存在超曲面将正类和负类分开;
核函数。
使用非线性函数将非线性可分问题从原始的特征空间映射至高维空间;
决策边界的超平面表示为:
在这里插入图片描述
定义映射函数的内机为核函数:
在这里插入图片描述
常见的核函数:多项式核、径向基函数核、
拉普拉斯核、Sigmoid核等。

**

4.5 决策树

**
决策树是一种基于树结构进行决策的机器学习方法。
树的结构中,叶子节点给出类标而内部节点代表某个属性。
决策树的生成过程中,最重要的因素是根节点的选择,即选择哪种特征作为决策的因素。
决策树生成的常用方法:ID3、C4.5、CART…

**

4.6 随机森林

**
(1)集成学习的概念
组合多个若监督模型,得到一个更好更全面的强监督模型。
(2)随机森林概述
随机森林是集成学习的一种,随机森林用随机的方式建立起一颗颗决策树,这些决策树构成一个森林,每个决策树之间无关联;
当一个新的输入进入随机森林时,每颗决策树独立地做出判断,按照多数原则决定该输入的分类结果。
(3)随机森林构建基本步骤
①随机有放回的,从数据集中抽取m个样本,作为训练集Dt;
②从Dt对应的特征属性中,随机选择部分特征,构建决策树;
③重复上述步骤构建多个决策树,形成随机森林。

**

5 无监督学习

5.1 聚类

(1)定义:聚类是将数据划分为多个类别,同一个类内,对象之间具有较高的相似性;不同的类之间,具有较大的差异性。

(2)聚类的常见算法:K-Means算法、均值漂移聚类、基于密度的聚类等。

(3)K-Means聚类
算法流程如下:
①初步选择K个对象,作为初始的中心,每个对象代表一个聚类中心;
②遍历数据集,计算数据集到每个中心的距离(一般是欧式距离),根据距离的远近确定每个数据样本所属类别;
③更新类别中心:将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;
④判断聚类中心和目标函数的值是否发生改变,若不变,则输出结果;若改变,则返回步骤②。

**

5.2 降维

**
(1)降维的目的
将原始样本数据的维度d降低到一个更小的数m,且尽量使得样本蕴含信息量损失最小,或还原数据时产生的误差最小,eg:PCA降维。

(2)降维的优势
①数据在低维下更容易处理、更容易使用;
②相关特征,特别是重要特征更能在数据中明确的显示出来;
③如果只有二维或者三维的话,能够进行可视化展示;
④去除数据噪声,降低算法开销;
⑤ …

**

Task02 总结

**
①Task02主要学习了机器学习的一些基础知识。
②机器学习的概念:机器学习是获取已知数据中的规律,并利用这个规律对未知数据进行预测的技术。
③数据集和误差的概念:数据集是观测样本的集合,数据集可以分为训练集、验证集和测试集;误差是实际值与模型预测值之间而定差值,模型在训练集和测试集上的效果,可以判定模型的性能如何(过拟合还是欠拟合),通过交叉验证的方法,可以帮助选择出最优的模型。
④偏差和方差:偏差是模型的预测值和真实值之间的差距;方差是判断模型稳定性的一个依据。
⑤有监督学习:数据集有答案。常见的任务是回归和分类,常见的算法有线性回归、逻辑回归、SVM、决策树、随机森林(集成算法的一种)、集成算法等。
⑥无监督学习:数据集没有答案。常见的任务是聚类(K-Means)、降维(PCA)。

【参考资料】

https://datawhalechina.github.io/unusual-deep-learning/#/3.%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80
DataWhale学习资料

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值