17天之深度学习task02机器学习基础

机器学习分类

名称老师学习方式评价标准代表任务
有监督学习有老师跟着老师学老师判断分类、回归
无监督学习无老师自学特定标准评价聚类、降维
强化学习无老师自学自己评价

数据集

  • 训练集:用来拟合模型
  • 验证集:用来调参;可以初步评估模型能力
  • 测试集:评估最终模型的泛化能力

误差分析

误差

  • 误差就是模型预测与真实值之间的差异

训练误差

  • 在训练集上的误差

泛化误差

  • 在总体样本上的误差

测试误差

  • 在测试集上的误差

偏差与方差

  • 偏差:真实值与预测值之间的关系,反应的是模型本身的拟合能力;
  • 方差:反应的是模型的稳定性,也就是波动情况;
    在这里插入图片描述

欠拟合与过拟合

  • 欠拟合:高偏差低方差
  • 解决方法:① 寻找更好地特征②寻找更多的特征③使用更加复杂的模型
  • 过拟合:低偏差高方差
  • 解决方法:① 增加样本数目②减少特征维数③ 加入正则项,使得图像更加光滑

交叉验证

  • 以10折交叉验证为例:把样本随机分为10份,第一次选第一份作为验证集,第二次选第二份作为验证集,以此类推
  • 特殊地:留一交叉验证:可以看做样本数目为n的n折交叉验证,也就是对于n个样本,每次选择一个作为验证集,适合训练集比较少的情况

有监督的学习

  • 就是数据集有标记(有答案)

  • 预测的值为离散型就是分类问题;预测的值为连续型就是回归问题

  • 线性回归目标:预测值与样本的标签差距最小;

  • 逻辑回归:利用sigmoid函数,将线性回归产生的预测值压缩到0~1范围之间

  • 支持向量机:常用来解决二分类问题;可以理解为用一条线把一个平面分为两部分

  • 对于支持向量机的不可分问题,可以采用超曲面核函数进行处理

  • 决策树:使用信息增益选择特征(谁是根节点,依次往下怎么排列),然后使用ID3或者其他算法递归建立决策树;

  • 随机森林:就是多个无关联的决策树构造完成,对于每个输入,每个决策树独立进行判断,然后随机森林按照多数原则输出结果

  • 随机森林集成学习的一种,也就是建立多个弱监督模型组成一个更全面的强监督模型;核心思想就是哪怕有一个弱监督模型学习错误,也可以根据多数原则输出最后正确的结果

无监督学习

  • 聚类:就是根据相似程度,相似程度高的是一类,低的是一类等;

  • 降维:就是把维数高、计算复杂的数据丢失较少的数据形成维度比较低、计算比较简单的数据;
    常见的聚类算法有:K-Means聚类、均值漂移聚类、基于密度的聚类;

  • K-Means聚类
    在这里插入图片描述

  • 均值漂移聚类
    在这里插入图片描述

  • 基于密度的聚类
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值