机器学习基础概念

herry57

已于 2023-04-19 20:46:12 修改

阅读量219

点赞数

分类专栏：人工智能文章标签：机器学习人工智能神经网络

于 2023-04-19 20:43:16 首次发布

本文链接：https://blog.csdn.net/herry57/article/details/130252050

版权

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习是让计算机通过大量数据训练发现规律，解决复杂问题。它包括监督学习、非监督学习等多种形式，适用于数据丰富且存在潜在规律的情境。机器学习流程涉及选择模型、训练算法和优化输出。不同类型的输出空间如二元分类、多元分类和回归，以及不同输入特征如具体特征、原始特征和抽象特征，都影响着学习方法的选择。

摘要由CSDN通过智能技术生成

1、Machine Learning

让机器（计算机）也能向人类一样，通过观察大量的数据和训练，发现事物规律，获得某种分析问题、解决问题的能力。

2、什么情况下使用机器学习

事物本身存在某种潜在规律
某些问题难以使用普通编程解决
有大量的数据样本可供使用

3、机器学习流程

对于理想的目标函数f，我们是不知道的，我们手上拿到的是一些训练样本D，假设是监督式学习，其中有输入x，也有输出y。机器学习的过程，就是根据先验知识选择模型，该模型对应hypothesis set（用H表示），H中包含了许多不同的hypothesis，通过演算法A，在训练样本D上进行训练，选择出一个最好的hypothes，对应的函数表达式g就是我们最终要求的。一般情况下，g能最接近目标函数f，这样，机器学习的整个流程就完成了。

4、Different Output Space Y

binary classification：输出2种类别
Multiclass classification：输出大于2种类别
Regression：输出范围在整个实数空间，其是连续的

5、Different Data Label Y

监督学习（Supervised Learning）：既有输入特征x，也有输出y
非监督学习（Unsupervised Learning）：没有输出标签y。其中应用有聚类分析，异常检测和密度估计等等。
半监督式学习（Semisupervised Learning）：一部分数据有输出标签yn，而另一部分数据没有输出标签yn。比如医药公司对某些药物进行检测，考虑到成本和实验人群限制等问题，只有一部分数据有输出标签yn。
增强学习（Reinforcement Learning）：增强学习中，我们给模型或系统一些输入，但是给不了我们希望的真实的输出y，根据模型的输出反馈，如果反馈结果良好，更接近真实输出，就给其正向激励，如果反馈结果不好，偏离真实输出，就给其反向激励。不断通过“反馈修正”这种形式，一步一步让模型学习的更好，这就是增强学习的核心所在。

6、Different Protocol

Batch Learning：获得的训练数据D是一批的，即一次性拿到整个D，对其进行学习建模，得到我们最终的机器学习模型
Oline:是一种在线学习模型，数据是实时更新的，根据数据一个个进来，同步更新我们的算法
Active learning:是近些年来新出现的一种机器学习类型，即让机器具备主动问问题的能力，例如手写数字识别，机器自己生成一个数字或者对它不确定的手写字主动提问。 active learning优势之一是在获取样本label比较困难的时候，可以节约时间和成本，只对一些重要的label提出需求。

7、Different Input Space X

concrete features：对机器学习来说最容易理解和使用。比如说硬币分类问题中硬币的尺寸、重量等；比如疾病诊断中的病人信息等具体特征。
raw features：一般比较抽象，经常需要人或者机器来转换为其对应的concrete features，这个转换的过程就是Feature Transform。比如说手写数字识别中每个数字所在图片的mxn维像素值；比如语音信号的频谱等。
abstract features：这些特征X完全是抽象的，没有实际的物理含义。所以对于机器学习来说是比较困难的，需要对特征进行更多的转换和提取。比如某购物网站做购买预测时，提供给参赛者的是抽象加密过的资料编号或者ID。