机器学习基础

最新推荐文章于 2024-06-25 11:32:19 发布

福尔财斯.包子蔡

最新推荐文章于 2024-06-25 11:32:19 发布

阅读量394

点赞数

文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/weixin_42827671/article/details/121067713

版权

1.1人工智能的起源：

图灵测试：测试者和被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问，多次测试（一般为5min之内），如果有超过30%的测试者不能确定被测试者是人还是机器，那么这台机器就通过了测试，并被认为具有人类智能。
达特茅斯会议：机器学习大牛的一次两个月的会议，最后的结论是：用机器来模仿人类学习以及其他方面的智能。（1956年是人工智能元年）

1.2人工智能主要分支：

通过人工智能的三个关键能力：通讯，感知，行动，人工智能主要有三个技术领域，分别是1）计算机视觉（CV） 2）自然语言处理（NLP）【覆盖文本挖掘、机器翻译、语音识别】3）机器人（固定机器人/移动机器人）

1.3什么是机器学习：

1.机器学习就是从数据中自动分析获得模型，并利用模型对未知数据进行预测

机器学习工作流程：

获取数据-->数据基本处理-->特征工程（对数据进行进一步的处理，方便后面进行机器学习）-->机器学习（模型训练）-->模型评估【1）结果达到要求，上线服务 2）没有达到要求，重新上面的步骤】

详记：

数据基本处理：对数据进行缺失值、去除异常值等处理
特征工程：

特征提取：将任意数据转换为可用于机器学习的数字特征

特征预处理：通过一些转换函数将特征转换成更加适合算法模型的特征数据过程

特征降维：在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程

【业界广为流传的一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已】

3.机器学习一般的数据集会划分为两个部分：训练数据（用于训练，构建模型，一般是70%～80%）、测试数据（在模型检验时使用，用于评估模型是否有效，一般是20%～30%）

1.4机器学习算法分类

根据数据集组成不同，可以把机器学习算法分为：

监督学习、无监督学习、半监督学习、强化学习

监督学习：

输入数据是由输入特征值和目标值组成

函数输出（目标值）可以是连续值【回归】，也可以是有限个离散值【分类】

无监督学习：

输入数据是由输入特征值组成，没有目标值（输入数据没有被标记，也没有确定的结果，样本数据类别未知）

需要根据样本间的相似性对样本进行类别划分

半监督学习：训练集同时包含有标记样本数据和未标记样本数据

监督学习：从数据库中得到很多没有标签的数据，经过专家的审阅打上标签，然后放到模型里进行训练，训练好以后就有了监督模型

半监督学习：从数据集中得到很多没有标签的数据，取少部分数据让专家打上标签，然后训练得出一个初步的模型。然后还有大量的没有标签的数据，在放入初步训练出的模型里训练，综合得出一个最终的模型。

图 1 监督学习和半监督学习的工作流程和区别

5.强化学习：主要包含五个元素（agent、action、reward、environment、observation），目标就是获得最多的累计奖励

图 2 监督学习和强化学习的区别

6.四种学习方式的区别小结：

1.5 模型评估

分类模型评估：

准确率：预测正确的数占样本总数的比例

其他评价指标：精确率、召回率、F1-score、AUC指标等

回归模型评估：

均方根误差（RMSE）：衡量回归模型误差率，仅能比较误差是相同单位的模型

其他评价指标：相对平方误差（RSE）、平均绝对误差（MAE）、相对绝对误差（RAE）

拟合

训练过程中常常出现的问题：训练集上表现很好，测试集上出现问题

欠拟合：模型学习的过于粗糙，连训练集中的样本数据特征关系都没有学出来（学习到的特征过少，区别标准不够精确）

过拟合：所见的机器学习模型或深度学习模型在训练集上表现过于优越，导致在测试数据集中表现不佳（学习到的东西过多，区别标准鲁棒性不好）

1.6 Azure机器学习模型搭建实验(了解机器学习的整个流程)

网址：Microsoft Machine Learning Studio (classic)

数据集：UCI机器学习数据库网址：http://archive.ics.uci.edu/ml/

数据集一般都是.csv格式

1.训练项目实例：根据人口普查预测成员收入

根据前13个属性，预测最后一个收入（这是一个有监督学习）

数据集情况

Matplotlib（用于开发2D图表的包）

导入 import matplotlib.pyplot as plt
图形绘制流程：

创建画布 -- plt.figure(figsize = () , dpi = )
绘制图像 -- plt.plot(x,y)\
显示图像 -- plt.show()

拓展功能：

添加自定义行x，y刻度(坐标刻度不能使用字符串直接修改)

Plt.xticks(x,**kwargs) x要显示的刻度值

2. matplotlib可以显示的图像内容

根据这个再依次天空即可绘制图形

模式识别前辈笔记：

模式识别课程笔记（一） - 超然haha - 博客园

https://zhuanlan.zhihu.com/p/63305895

K均值聚类：

模式识别十--k-均值聚类算法的研究与实现_HuFeiHu-CSDN博客

边缘检测：

很多图像处理和识别算法都以边缘检测为重要基础
边缘：灰度边缘、彩色边缘

福尔财斯.包子蔡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础

1.1人工智能的起源：图灵测试：测试者和被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问，多次测试（一般为5min之内），如果有超过30%的测试者不能确定被测试者是人还是机器，那么这台机器就通过了测试，并被认为具有人类智能。达特茅斯会议：机器学习大牛的一次两个月的会议，最后的结论是：用机器来模仿人类学习以及其他方面的智能。（1956年是人工智能元年）1.2人工智能主要分支：通过人工智能的三个关键能力：通讯，感知，行动，人工智能主要有三个技术领域，分别是1）
复制链接

扫一扫