17天之深度学习task02机器学习基础

最新推荐文章于 2024-10-05 19:36:33 发布

小小小泥鳅

最新推荐文章于 2024-10-05 19:36:33 发布

阅读量566

点赞数

分类专栏：深度学习文章标签：深度学习概率论机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lyp3171790866/article/details/121382822

版权

深度学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

机器学习分类

名称	老师	学习方式	评价标准	代表任务
有监督学习	有老师	跟着老师学	老师判断	分类、回归
无监督学习	无老师	自学	特定标准评价	聚类、降维
强化学习	无老师	自学	自己评价

数据集

训练集：用来拟合模型
验证集：用来调参；可以初步评估模型能力
测试集：评估最终模型的泛化能力

误差分析

误差

误差就是模型预测与真实值之间的差异

训练误差

在训练集上的误差

泛化误差

在总体样本上的误差

测试误差

在测试集上的误差

偏差与方差

偏差：真实值与预测值之间的关系，反应的是模型本身的拟合能力；
方差：反应的是模型的稳定性，也就是波动情况；

欠拟合与过拟合

欠拟合：高偏差低方差
解决方法：① 寻找更好地特征②寻找更多的特征③使用更加复杂的模型
过拟合：低偏差高方差
解决方法：① 增加样本数目②减少特征维数③ 加入正则项，使得图像更加光滑

交叉验证

以10折交叉验证为例：把样本随机分为10份，第一次选第一份作为验证集，第二次选第二份作为验证集，以此类推
特殊地：留一交叉验证：可以看做样本数目为n的n折交叉验证，也就是对于n个样本，每次选择一个作为验证集，适合训练集比较少的情况

有监督的学习

就是数据集有标记（有答案）
预测的值为离散型就是分类问题；预测的值为连续型就是回归问题
线性回归目标：预测值与样本的标签差距最小；
逻辑回归：利用sigmoid函数，将线性回归产生的预测值压缩到0~1范围之间
支持向量机：常用来解决二分类问题；可以理解为用一条线把一个平面分为两部分
对于支持向量机的不可分问题，可以采用超曲面和核函数进行处理
决策树：使用信息增益选择特征（谁是根节点，依次往下怎么排列），然后使用ID3或者其他算法递归建立决策树；
随机森林：就是多个无关联的决策树构造完成，对于每个输入，每个决策树独立进行判断，然后随机森林按照多数原则输出结果
随机森林是集成学习的一种，也就是建立多个弱监督模型组成一个更全面的强监督模型；核心思想就是哪怕有一个弱监督模型学习错误，也可以根据多数原则输出最后正确的结果

无监督学习

①聚类：就是根据相似程度，相似程度高的是一类，低的是一类等；
②降维：就是把维数高、计算复杂的数据丢失较少的数据形成维度比较低、计算比较简单的数据；
常见的聚类算法有：K-Means聚类、均值漂移聚类、基于密度的聚类；
K-Means聚类：
均值漂移聚类：
基于密度的聚类：

小小小泥鳅

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。