1、机器学习概述

最新推荐文章于 2024-08-02 19:09:44 发布

Αиcíеиτеǎг

最新推荐文章于 2024-08-02 19:09:44 发布

阅读量562

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/ancientear/article/details/112389961

版权

机器学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

举一个无人机自主降落环境识别算法的例子：
(1)数据样本采集:可采用与之相关的任何方法;
(2)相关需要准备数据:距离计算需要的数值,最好采用结构化数据格式。
(3)数据提取分析:用计算机对采集的图片进行分析;
(4)训练knn算法:采用大量图面,输入基准图片,进行算法训练。
(5)测试knn算法:计算knn算法的错误率;
(6)使用该算法:首先,需要输入样本数据和结构化输出结果,然后运行Knn算法来确定属于哪个类别的输入数据,然后将后续处理应用到计算的分类中。

6、数据集

（1）专有名词
样本：一行数据
特征：一列数据
目标值：有些数据有目标值（标签值），有些数据没有目标值
（2）数据类型的构成：
数据类型一：特征值+目标值（目标值是连续的和离散的）
数据类型二：只有特征值，没有目标值

（3）数据分割
训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效
划分比例：训练集（0.7-0.8），测试集（0.2-0.

7、数据的基本处理

对数进行缺失值、去除异常值等处理。

8、特征工程

**定义：**使用专业背景知识和技巧处理数据，使得特征值能在机器学习算法上发挥更好的作用的过程。会直接影响数据学习的效果。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。
包含的内容：

特征提取：将任意数据（如文本和图像）转换为可用于机器学习的数字特征
例子1: 以京东商城的运动服装为例，需要爬取的数据页面如下图所示：

商品的信息以上图的形式呈现，其中有我们一些需要爬取的信息，如服装所在的店铺、商品的价格、商品的标签、商品的评论等信息，都是电商运动服装分析的重要数据来源。为了获取商品信息，需要一个爬虫程序来爬取网站。指定爬取的url为
https://list.jd.com/list.html?cat=1318,12102,9765&page=1&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main 在这里插入图片描述
例子2:

global image ;
imsize=size(image);
im=imresize(image,[400,600]);%对输入图像的尺寸做调整
im=im(:);%转成1列
traindata=importdata('traindata.mat');
label =importdata('label.mat');
%草地=1；湖泊=2；沙漠=3；水泥地=4；障碍物碎石=5；湖泊=6；
kNNClassifier = fitcknn(traindata', label', 'NumNeighbors',1) ;
class = predict(kNNClassifier, double(im'));
% str = {'识别结果为:草地','识别结果为:湖泊','识别结果为:沙漠','识别结果为:水泥地','识别结果为:障碍物碎石','识别结果为:湖泊'};
str2={'无人机当前下降速度:10m/s ','禁止无人机下落 ','无人机当前下降速度:5m/s ','无人机当前下降速度:2m/s ','无人机当前下降速度:1m/s ','禁止无人机下落 '};
str3={'图片含有特征 绿草,识别地形为：草地,','图片含有特征 水面,识别地形为：湖泊','图片含有特征 黄沙,识别地形为：沙漠','图片含有特征 灰色平地,识别地形为：水泥地','图片含有特征碎石,识别地形为：障碍物碎石','图片含有特征 水面,识别地形为：沼泽'};

特征预处理：通过一些转换函数将特征数据转换为更加适合算法模型的特征数据过程

以图像的灰度处理为例：
图像的灰度处理的意思具体来说，就是简单地将彩色图像转换成灰度图像。彩色图像中的每个像素的颜色由R、G和B来确定，并且每个分量具有255个值的中值，使得像素可以具有大约16000000（255×255×255）颜色的范围。灰度图像是与R、G和B相同的三个分量的特殊彩色图像，一个像素的变化范围是255。因此，在数字图像处理中，将各种格式的图像变换为灰度图像，使得后面图像的计算变少。灰度图像的描述，如彩色图像，仍然反映了整个图像的局部色度和亮度等级的分布和特征。图像的灰度处理可以通过两种方式来实现。
第一种方法使求出每个像素点的R、G、B三个分量的平均值，然后将这个平均值赋予给这个像素的三个分量。
第二种方法是根据YUV的颜色空间中，Y的分量的物理意义是点的亮度，由该值反映亮度等级，根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应：Y=0.3R+0.59G+0.11B，以这个亮度值表达图像的灰度值。
特征降维：指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程（2D与3D转化）

8、模型评估

定义：对训练好的模型进行评估
以人脸检测为例：
人脸检测是较为简单的一环，仅仅需要将预测试图片进行研究，得出是否存在人脸的结论，并不需要把图像信息与数据库对比，因此作为一个简单的分类进行展示。在测试环境的目录中，放入代检测图像。
测试是否能识别有人脸图
待测试有人脸图片
识别出人脸的结果（有框）：

未识别出人脸的结果（无框）：

9、机器学习算法分类

9.1 监督学习

定义：输入数据是由特征值和目标值所组成。
回归问题：函数的输出可以是一个连续的值，例如预测房价，根据样本集拟合出一条连续曲线
分类问题：或是输出有限个离散值（成为分类），根据肿瘤特征判断时良性还是恶性，是离散的
案例：猫狗分类，房价预测
算法：分类k-近邻算法，贝叶斯分类，决策树与随机森林，逻辑回归，神经网络

9.2 无监督学习

定义：输入数据是由输出特征值组成
输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类）试图使类内差距最小化，类间差距最大化。
案例：物以类聚，人以群分
算法：
监督学习和无监督学习的对比
监督学习有分类和回归，输入数据有特征有标签，即有标准答案
无监督学习是聚类，输入数据有特征无标签，即无标准答案
算法：K-means，降维

9.3 半监督学习

定义：即训练集同时包含有标记样本数据和未标记样本数据
案例：训练数据量过多时

9.4 强化学习

实质是，决策问题。即自动进行决策，并且可以做连续决策
agent采取action来操纵环境，并且从一个环境状态转化为另一个状态，当完成子任务可以得到奖励，转换失败则无奖励。
即四个要素为：
agent, action,environment,reward
案例：学下棋
算法：马尔科夫决策，动态规划
监督学习与强化学习的对比

	监督学习	强化学习
反馈映射	输入到输出的一个映射，监督式学习输出的是之间的关系，可以告诉算法什么样的输入对应什么样的输出	输入到树输出的一个映射，强化学习输出的是给机器的反馈reward function，即用来判断这个行为是好是坏
反馈时间	做了比较坏的选择会立即反馈给算法	结果反馈有延时，有时候需要走了很多步以后才知道以前的某一步的选择是好还是坏
输入特征	输入是独立同分布的	面对的输入总是在变化，每当算法做出一个行为，它影响下一次决策的输入
行为模式	不考虑行为间的平衡，只是开发	一个agent可以在探索和开发之间做权衡，并且选择一个最大的回报