1、机器学习概述

1、人工智能、机器学习、深度学习的关系

机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展而来(神经网络)

2、分支

计算机视觉(CV),自然语言处理(NLP),机器人
(1)计算机视觉:人脸识别
(2)自然语言处理:
a.语音识别(百度语音识别)
b.语义识别:机器翻译,文本挖掘/分类(文本分类,如句法分析、情绪分析和垃圾信息检测)

3、人工智能发展必备三要素:数据、算法、计算力
4、GPU和CPU的对比

CPU主要是进行IO读写(IO密集型)
GPU则主要用于数据计算(计算密集型,易于并行的程序)

5、机器学习工作流程

(1)定义:从数据中自动分析获得模型,并利用模型对未知数据进行预测。(选择合适的算法对模型进行训练)
(2)工作流程:

  1. 获取数据
  2. 数据基本处理
  3. 特征工程:把所有的数据转换为机器更容易识别的数据
  4. 机器学习:选择算法进行模型训练
  5. 模型评估

举一个无人机自主降落环境识别算法的例子:
(1)数据样本采集:可采用与之相关的任何方法;
(2)相关需要准备数据:距离计算需要的数值,最好采用结构化数据格式。
(3)数据提取分析:用计算机对采集的图片进行分析;
(4)训练knn算法:采用大量图面,输入基准图片,进行算法训练。
(5)测试knn算法:计算knn算法的错误率;
(6)使用该算法:首先,需要输入样本数据和结构化输出结果,然后运行Knn算法来确定属于哪个类别的输入数据,然后将后续处理应用到计算的分类中。

6、数据集

(1)专有名词
样本:一行数据
特征:一列数据
目标值:有些数据有目标值(标签值),有些数据没有目标值
(2)数据类型的构成:
数据类型一:特征值+目标值(目标值是连续的和离散的)
数据类型二:只有特征值,没有目标值

(3)数据分割
训练数据:用于训练,构建模型
测试数据:在模型检验时使用,用于评估模型是否有效
划分比例:训练集(0.7-0.8),测试集(0.2-0.

7、数据的基本处理

对数进行缺失值、去除异常值等处理。

8、 特征工程

**定义:**使用专业背景知识和技巧处理数据,使得特征值能在机器学习算法上发挥更好的作用的过程。会直接影响数据学习的效果。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
包含的内容:

  1. 特征提取:将任意数据(如文本和图像)转换为可用于机器学习的数字特征
    例子1: 以京东商城的运动服装为例,需要爬取的数据页面如下图所示:
    在这里插入图片描述

商品的信息以上图的形式呈现,其中有我们一些需要爬取的信息,如服装所在的店铺、商品的价格、商品的标签、商品的评论等信息,都是电商运动服装分析的重要数据来源。为了获取商品信息,需要一个爬虫程序来爬取网站。指定爬取的url为
https://list.jd.com/list.html?cat=1318,12102,9765&page=1&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main在这里插入图片描述
例子2:

global image ;
imsize=size(image);
im=imresize(image,[400,600]);%对输入图像的尺寸做调整
im=im(:);%转成1列
traindata=importdata('traindata.mat');
label =importdata('label.mat');
%草地=1;湖泊=2;沙漠=3;水泥地=4;障碍物碎石=5;湖泊=6;
kNNClassifier = fitcknn(traindata', label', 'NumNeighbors',1) ;
class = predict(kNNClassifier, double(im'));
% str = {'识别结果为:草地','识别结果为:湖泊','识别结果为:沙漠','识别结果为:水泥地','识别结果为:障碍物碎石','识别结果为:湖泊'};
str2={'无人机当前下降速度:10m/s ','禁止无人机下落 ','无人机当前下降速度:5m/s ','无人机当前下降速度:2m/s ','无人机当前下降速度:1m/s ','禁止无人机下落 '};
str3={'图片含有特征 绿草,识别地形为:草地,','图片含有特征 水面,识别地形为:湖泊','图片含有特征 黄沙,识别地形为:沙漠','图片含有特征 灰色平地,识别地形为:水泥地','图片含有特征碎石,识别地形为:障碍物碎石','图片含有特征 水面,识别地形为:沼泽'};

  1. 特征预处理:通过一些转换函数将特征数据转换为更加适合算法模型的特征数据过程
    在这里插入图片描述
    以图像的灰度处理为例:
    图像的灰度处理的意思具体来说,就是简单地将彩色图像转换成灰度图像。彩色图像中的每个像素的颜色由R、G和B来确定,并且每个分量具有255个值的中值,使得像素可以具有大约16000000(255×255×255)颜色的范围。灰度图像是与R、G和B相同的三个分量的特殊彩色图像,一个像素的变化范围是255。因此,在数字图像处理中,将各种格式的图像变换为灰度图像,使得后面图像的计算变少。灰度图像的描述,如彩色图像,仍然反映了整个图像的局部色度和亮度等级的分布和特征。图像的灰度处理可以通过两种方式来实现。
    第一种方法使求出每个像素点的R、G、B三个分量的平均值,然后将这个平均值赋予给这个像素的三个分量。
    第二种方法是根据YUV的颜色空间中,Y的分量的物理意义是点的亮度,由该值反映亮度等级,根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应:Y=0.3R+0.59G+0.11B,以这个亮度值表达图像的灰度值。

  2. 特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程(2D与3D转化)

8、 模型评估

定义:对训练好的模型进行评估
以人脸检测为例:
人脸检测是较为简单的一环,仅仅需要将预测试图片进行研究,得出是否存在人脸的结论,并不需要把图像信息与数据库对比,因此作为一个简单的分类进行展示。在测试环境的目录中,放入代检测图像。
测试是否能识别有人脸图
待测试有人脸图片
识别出人脸的结果(有框):

未识别出人脸的结果(无框):

9、机器学习算法分类
9.1 监督学习

定义:输入数据是由特征值和目标值所组成。
回归问题:函数的输出可以是一个连续的值,例如预测房价,根据样本集拟合出一条连续曲线
分类问题:或是输出有限个离散值(成为分类),根据肿瘤特征判断时良性还是恶性,是离散的
案例:猫狗分类,房价预测
算法:分类k-近邻算法,贝叶斯分类,决策树与随机森林,逻辑回归,神经网络

9.2 无监督学习

定义:输入数据是由输出特征值组成
输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类)试图使类内差距最小化,类间差距最大化。
案例:物以类聚,人以群分
算法:
监督学习和无监督学习的对比
监督学习有分类和回归,输入数据有特征有标签,即有标准答案
无监督学习是聚类,输入数据有特征无标签,即无标准答案
算法:K-means,降维

9.3 半监督学习

定义:即训练集同时包含有标记样本数据和未标记样本数据
案例:训练数据量过多时

9.4 强化学习

实质是,决策问题。即自动进行决策,并且可以做连续决策
agent采取action来操纵环境,并且从一个环境状态转化为另一个状态,当完成子任务可以得到奖励,转换失败则无奖励。
即四个要素为:
agent, action,environment,reward
案例:学下棋
算法:马尔科夫决策,动态规划
监督学习与强化学习的对比

监督学习强化学习
反馈映射输入到输出的一个映射,监督式学习输出的是之间的关系,可以告诉算法什么样的输入对应什么样的输出输入到树输出的一个映射,强化学习输出的是给机器的反馈reward function,即用来判断这个行为是好是坏
反馈时间做了比较坏的选择会立即反馈给算法结果反馈有延时,有时候需要走了很多步以后才知道以前的某一步的选择是好还是坏
输入特征输入是独立同分布的面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入
行为模式不考虑行为间的平衡,只是开发一个agent可以在探索和开发之间做权衡,并且选择一个最大的回报
10、模型评估

根据数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。

10.1 分类模型评估
  1. 准确率:预测正确的数占总样本总数的比例
  2. 精确率:正确预测为正占全部预测为正的比例
  3. 召回率:正确预测为正占全部正样本的比例
  4. F1-score:主要用于评估模型的稳健型
  5. AUC指标:主要用于评估样本不均衡的情况
10.2 回归模型评估
  1. 均方根误差(RMSE)
  2. 相对平方误差(RSE)
  3. 平均绝对误差(MAE)
  4. 相对绝对误差
  5. 决定系数
10.3 拟合

欠拟合:模型复杂度过低,特征量过少
过拟合:参数太多,模型复杂度过高,样本有误等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Αиcíеиτеǎг

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值