机器学习中的一些基本概念

最新推荐文章于 2024-04-30 18:38:00 发布

dirtyboy6666

最新推荐文章于 2024-04-30 18:38:00 发布

阅读量613

点赞数

分类专栏：机器学习概念文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40999066/article/details/105561462

版权

2 篇文章 0 订阅

订阅专栏

著名的鸢尾花数据：数字化（名称采用0，1，2…代替）。
数据集（data set）：数据的整体（可以看作一个矩阵X）。
样本（sample）：每行数据表示一个样本（第i个样本X上角标i）。
特征（feature）：每一列表达样本的一个特征（第i个特征X下角标i）。
标记（lable）：最后一列，用y表示，看作一个向量。
数据的表示：
特征空间（feature space）：在空间中的点表示一个样本，有几个特征就是几维特征空间。
$分类任务的本质就是特征空间切分。
$特征可以很抽象，例如图像识别：每一个像素点都是特征，28*28=784个特征。如果彩色图像特征就很多。
深度学习可以理解为算法在自动的进行特征工程。而特征工程指的是把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征。

分类任务：
(1).二分类任务：判断图片是猫还是狗，判断是否为垃圾邮件等等
(2).多分类任务：手写数字识别，图像识别，银行的风险等级评估等等
注：一些算法只支持二分类任务，但是多分类的任务可以转换为二分类任务，有一些算法天然可以完成多分类任务。
多标签任务：分出一张图片是两个人，人拿物体等情况，而非一个人，一个物品等单一目标情况
回归任务：结果是一个连续数字的值，而非类别。
预测房屋价格，市场分析，学生成绩，股票价格
有些算法只能解决回归问题，有的只能解决分类问题，有的都可以结局
有的回归任务可以演变成分类任务，例如无人驾驶

机器学习就是通过向机器学习算法中输入大量的学习资料（样本），然后产出一个函数f（x），x即代表一个样本，就可以得到一个结果。结果试一个类别，就是一个分类问题，如果是一串数字，就是回归问题。

批量学习
简单，但是不能适应环境的变化。解决方案：定时的进行批量学习。每天重新进行批量学习，运算量巨大。这在某些环境中不能实现，如股市。
在线学习
及时反映新的环境的变化。新的数据带来不好的变化（对手错误的使用产生一些错误的数据）。这可以听过加强数据的监控来解决。适用于数据量巨大，无法批量学习的。
参数学习
一旦学到了参数，就不再需要原有的数据集。可以通过参数计算出数据。
非参数学习
不对模型进行假设，非参数不等于没参数。

关注