机器学习概述2

算法分类

学习目标

1.知道有监督学习是什么?

2.知道无监督学习是什么?

3.知道半监督学习是什么?

4.了解强化学习是什么?

5.能掌握监督学习、无监督学习的数学表示

【掌握】有监督学习

  • 定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的

  • 数据集:需要人工标注数据

    在这里插入图片描述

【掌握】分类
  • 目标值(标签值)是不连续的

  • 分类种类:二分类、多分类任务、

在这里插入图片描述

【掌握】回归

目标值(标签值)是连续的

在这里插入图片描述

【熟悉】无监督学习

  • 定义:输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现事物内部 结构及相互关系。

  • 数据集:不需要标注数据

在这里插入图片描述

无监督学习特点:

1 训练数据无标签

2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

在这里插入图片描述

【了解】半监督学习

工作原理:

1 让专家标注少量数据,利用已经标记的数据(也就

是带有类标签)训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比,

从而对模型做进一步改善和提高

在这里插入图片描述

半监督学习方式可大幅降低标记成本

【了解】强化学习

1 强化学习(Reinforcement Learning):机器学习的一个重要分支

2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理:基本原理:通过构建四个要素:agent,环境状态,行动,奖励,

agent根据环境状态进行行动获得最多的累计奖励。。

在这里插入图片描述

小孩子学走路:

​ (1) 小孩就是 agent,他试图通过采取(即行走)来操纵环境(地面),

​ (2) 并且从一个状态转变到另一个状态(即他走的每一步),

​ (3) 当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),

​ (4) 并且当他不能走路时,就不会给巧克力。

总结

在这里插入图片描述

在这里插入图片描述

【知道】机器学习的建模流程

在这里插入图片描述

在这里插入图片描述

特征工程

学习目标:

1.知道特征工程是什么?

2.理解特征提取的作用

3.理解特征预处理的作用

4.了解特征降维、特征选择、特征组合

【知道】特征工程

在这里插入图片描述

从数据集角度来看: 一列一列的数据为特征。

从模型训练角度来看: 对预测结果有用的属性为特征

特征工程是:利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程

Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”

释义:特征工程是困难、耗时、需要专业知识。应用机器学习基础就是特征工程

【理解】数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

【理解】特征提取

从原始数据中提取与任务相关的特征,构成特征向量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里插入图片描述

对于文本、图片这种非行列形式的数据行列形式转换,

一旦转换成行列形式一列就是特征

【理解】特征预处理

特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小

在这里插入图片描述

将不同的单位的特征数据转换成同一个范围内

使训练数据中不同特征对模型产生较为一致的影响

【了解】特征降维

将原始数据的维度降低,叫做特征降维

在这里插入图片描述

会丢失部分信息。降维就需要保证数据的主要信息要保留下来

原始数据会发生变化,不需要了解数据本身是什么含义,它保留了最主要的信息

【了解】特征选择

原始数据特征很多,但是对任务相关是其中一个特征集合子集。

在这里插入图片描述

从特征中选择出一些重要特征(选择就需要根据一些指标来选择)

特征选择不会改变原来的数据

【了解】特征组合

把多个的特征合并成一个特征。

在这里插入图片描述

通过加法、乘法等方法将特征值合并

在这里插入图片描述

【掌握】模型拟合问题

学习目标:

1.知道拟合是什么?

2.理解过拟合、欠拟合是什么?

3.知道过拟合、欠拟合出现的原因

4.理解泛化是什么?

1

拟合:用来表示模型对样本点的拟合情况

欠拟合:模型在训练集上表现很差、在测试集表现也很差

原因:模型过于简单

过拟合:模型在训练集上表现很好、在测试集表现很差

原因:模型太过于复杂、数据不纯、训练数据太少

泛化:模型在新数据集(非训练数据)上的表现好坏的能力

奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

【实操】机器学习开发环境

基于Python的 scikit-learn 库:

  1. 简单高效的数据挖掘和数据分析工具
  2. 可供大家使用,可在各种环境中重复使用
  3. 建立在NumPy,SciPy和matplotlib上
  4. 开源,可商业使用-获取BSD许可证

pip install scikit-learn

在这里插入图片描述



在这里插入图片描述

  • 22
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值