机器学习基本概念

最新推荐文章于 2021-11-06 10:16:21 发布

sam-123

最新推荐文章于 2021-11-06 10:16:21 发布

阅读量292

点赞数

分类专栏：机器学习机器学习入门

本文链接：https://blog.csdn.net/fst438060684/article/details/90237221

版权

机器学习同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

机器学习入门

5 篇文章 1 订阅

订阅专栏

文章目录

数据
机器学习任务
什么是机器学习
其他

数据

以下面的图，来分析机器学习数据的一些概念：

萼片长度	萼片宽度	花瓣长度	花瓣宽度	种类
5.8	3.5	1.5	0.6	se(0)
7.2	3.5	1.6	0.5	ve(1)
3.1	2.5	1.6	0.2	vi(2)

数据集：上面这个整体的数据就叫数据集（data set）
样本：每一行的数据称为样本（sample）
特征：除最后一列，每一列表达样本的一个特征（feature）
标记：最后一列，称为标记
数学表达：第i个样本行写作 $X^{(i)}$ ，第i个样本第j个特征值 $X^{(i)}_ {j}$ ，第i个样本的标记写作 $y^{(i)}$ (种类是y，除了种类之外的都是x）
特征向量： $X^{(1)}$ = $\left\{\begin{matrix} 5.8 \\ 3.5 \\ 1.5 \\ 0.6 \end{matrix} \right\}$
样本表示： $\left\{\begin{matrix} (X^{(1)})^T \\ (X^{(2)})^T \\ (X^{(3)})^T \\ (X^{(4)})^T \end{matrix} \right\}$
下面是另外一个图

整个图表示特征空间，分类任务的本质就是在这个特征空间里面找一条直线划分。这里是二维空间，在高维空间里面也同理。
再举个栗子，如下图。对于下面的图像，每一个像素点都是特征。25乘以25的图像25*25=625个特征。下图的图像是黑白的，对于彩色的图像，特征更多。

机器学习任务

分类任务

二分类

判断邮件是否垃圾邮件
判断发放给客户信用卡是否有风险
判断疾病患者是良性肿瘤还是恶性肿瘤
判断某只股票涨跌

多分类

一些算法只支持完成二分类任务
当是多分类的任务可以转换成二分类的任务
有一些算法泰瑞可以完成多分类
通过一定的方法，二分类算法可以解决多分类问题

回归任务

回归任务的结果是一个连续的数字，而不是一个类别，例如房屋价格、市场分析、学生成绩、股票价格等

有一些算法只能解决回归问题
有一些算法只能解决分类问题
有一些算法技能解决回归问题，又能解决分类问题
一些情况下，回归任务可以简化成分类任务

什么是机器学习

机器学习过程

机器学习方法分类

监督学习

监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。例如：

图像已经拥有了标定信息
银行已经积累了一定的额客户信息和他们信用卡的信用情况
医院已经积累了一定的病人信息和他们最终确诊是否患病的情况
市场积累了房屋的基本信息和最终成交的金额
监督学习的算法有如下一些：k近邻、线性回归和多项式回归、逻辑回归、SVM、决策树和随机森林

非监督学习

非监督学习，给机器的训练数据没有任何“标记”或者“答案”。它可以用来对没有标记的数据进行分类或者聚类分析，或者对数据进行降维处理（特征提取、特征压缩如PCA ）

半监督学习

半监督学习是指一部分数据有“标记”或者“答案”，另一部分数据没有的机器学习过程。它更多的用于处理由于各种原因产生标记缺失的情形。这种情况下，我们通常都先使用无监督学习手段对数据做处理，之后使用监督学习手段做模型的训练和预测。

增强学习

根据周围环境的情况，采取行动，根据采取行动的结果，学习行动的方式。
在这里插入图片描述
无人驾驶、智能机器人这种都属于增强学习。之前我们讲的监督学习和半监督学习是增强学习的基础。

其它分类

在线学习和批量学习（离线学习）

批量学习（Batch Learning）
批量学习的优点是简单，缺点是不能适应环境变化，需要定时重新批量学习。但是每次重新批量学习，运算量很大。在某些环境变化非常快的情况下，重新批量学习变得不可能。
在线学习（Online Learning）
在线学习的优点就是批量学习的缺点，能够及时反映新的环境变化。但是同时又会带来新的问题，新的数据可能会带来不好的变化，需要加强对新的数据进行监控。它适用于数据量巨大，完全无法批量学习的情况。

参数学习和非参数学习

参数学习 Parametric Learning
一旦学习到了参数，就不在需要原有的数据集。它的定义：假设可以最大程度地简化学习过程，与此同时也限制可以学习到是什么，这种算法简化成一个已知的函数形式，即通过固定数目的参数来拟合数据的算法。
Logistic Regression、DA（线性判别分析）、朴素贝叶斯和简单神经网络都属于参数学习
非参数学习 Nonparametric Learning
非参数学习不对模型进行过多的假设，但是非参数学习不等于没有参数。定义：不对目标函数的形式作出强烈假设的算法称为非参数机器学习算法，通过不做假设，它们可以从训练数据中自由地学习任何函数形式，即参数数量会随着训练样本数量的增长的算法。　
KNN、决策树（比如CART和C4.5）、SVM等都是非参数学习算法。

其他

在机器学习领域，有很算法，具体到某个问题，有的算法可能会更好。但是由于数据集和评判标准的不同，还有各种各样别的因素，我们不能认定一种算法绝对比另外一种算法好。因为脱离实际问题去谈算法的好坏，是没有意义的，所以在我们面对一个具体问题的时候，尝试用多种算法进行对比试验，是很有必要的。

sam-123

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习基本概念

数据以下面的图，来分析机器学习数据的一些概念：萼片长度萼片宽度花瓣长度花瓣宽度种类5.83.51.50.6se(0)7.23.51.60.5ve(1)3.12.51.60.2vi(2)数据集：上面这个整体的数据就叫数据集（data set）样本：每一行的数据称为样本（sample）特征：除最后一列，每一列表达样本的一个特...
复制链接

扫一扫

专栏目录