机器学习__01__机器学习概述

机器学习概述

image-20220904211539898

1.0机器学习介绍

1.1机器学习的特点

image-20220905073545419

(1)传统的编程模式

通过规则和数据获取答案

  • 规则:数据结构与算法

通过利用确定的规则,充分发挥计算机的性能优势。

(2)机器学习模式

通过数据和答案得到规则

学术一点来说:机器学习的特点就是:

​   以计算机为工具和平台

​   以数据为研究对象

​   以学习方法为中心

​   是概率论、线性代数、信息论、最优化理论和计算机科学等

​   多个领域的交叉学科。

1.2机器学习的对象

​   机器学习的对象是数据,从数据出发,提取特征,抽象出数据模型,发现数据中的规律,再回到对新数据的分析和预测。

image-20220905074611380

1.3机器学习的应用

1.图像识别:

img

​   图像识别是机器学习最常见的应用之一。它用于识别物体、人物、地点、数字图像等。图像识别和人脸检测的流行用例是,自动好友标记建议:Facebook 为我们提供了自动好友标记建议的功能。每当我们上传与 Facebook 好友的照片时,我们都会自动收到带有姓名的标记建议,这背后的技术是机器学习的人脸检测和识别算法。它基于名为“ Deep Face ”的Facebook项目,负责图片中的人脸识别和人物识别。

2. 语音识别

​   在使用各种搜索软件时,我们有一个“通过语音搜索”的选项,它属于语音识别,是机器学习的一个流行应用。语音识别是将语音指令转化为文字的过程,也称为“语音转文字”,或“计算机语音识别”目前,机器学习算法被各种语音识别应用广泛使用。百度助手、还有一些语音输入法正在使用语音识别技术来遵循语音指令。

3.交通预测:

​   如果我们想去一个新的地方,我们会借助手机地图,它会向我们显示最短路线的正确路径并预测交通状况。 它通过两种方式预测交通状况,例如交通是否畅通、缓慢行驶或严重拥堵:车辆的实时位置来自地图应用程序和传感器、过去几天的平均时间同时发生。 每个使用手机地图的人都在帮助这个应用程序变得更好。它从用户那里获取信息并将其发送回其数据库以提高性能。

4.产品推荐:

​ 机器学习被京东、淘宝等各种电子商务和娱乐公司广泛用于向用户推荐产品。每当我们在京东上搜索某种产品时,我们就会在同一浏览器上上网时收到同一产品的广告,这是因为机器学习。 淘宝使用各种机器学习算法了解用户的兴趣,并根据客户的兴趣推荐产品。 类似地,当我们使用淘宝购物时,我们会找到一些关于娱乐系列、电影等的推荐,这也是在机器学习的帮助下完成的。

5. 自动驾驶汽车:

​   机器学习最令人兴奋的应用之一是自动驾驶汽车。机器学习在自动驾驶汽车中发挥着重要作用。最受欢迎的汽车制造公司特斯拉正在开发自动驾驶汽车。它使用无监督学习方法训练汽车模型在驾驶时检测人和物体。国内的自动驾驶汽车也很热门,比如上海交通大学在此次疫情发生的时候采用自动驾驶汽车送餐。

6. 垃圾邮件和恶意软件过滤:

  每当我们收到一封新电子邮件时,它都会被自动过滤为重要邮件、正常邮件和垃圾邮件。我们总是会在收件箱中收到一封带有重要符号的重要邮件,垃圾邮件箱中也会有垃圾邮件,这背后的技术是机器学习。以下是 Gmail 使用的一些垃圾邮件过滤器: 内容过滤器、标题过滤器、常规黑名单过滤器、基于规则的过滤器、权限过滤器。一些机器学习算法,例如多层感知器、决策树和朴素贝叶斯分类器,用于电子邮件垃圾邮件过滤和恶意软件检测。

7. 虚拟个人助理:

​ 我们有各种虚拟个人助理,例如Cortana、Siri。顾名思义,它们可以帮助我们使用语音指令查找信息。这些助手可以通过我们的语音指令以各种方式帮助我们,例如播放音乐、打电话给某人、打开电子邮件、安排约会等。 这些虚拟助手使用机器学习算法作为重要组成部分。 这些助手记录我们的语音指令,通过云服务器将其发送,并使用 ML 算法对其进行解码并采取相应的行动。

8. 在线欺诈检测:

  机器学习通过检测欺诈交易使我们的在线交易安全可靠。每当我们进行一些在线交易时,欺诈交易可能会以多种方式发生,例如假账户、假身份证和在交易过程中偷钱。因此,为了检测到这一点,前馈神经网络通过检查它是真实交易还是欺诈交易来帮助我们。 对于每笔真实的交易,输出都会转换成一些哈希值,这些值成为下一轮的输入。对于每笔真实交易,都有一个特定的模式可以改变欺诈交易,因此,它会检测到它并使我们的在线交易更加安全。

9. 股市交易:

​   机器学习广泛用于股票市场交易。在股票市场中,股票的涨跌风险总是存在的,因此对于这个机器学习的长短期记忆神经网络用于股票市场趋势的预测。

10. 医学诊断:

  在医学科学中,机器学习用于疾病诊断。有了这个,医疗技术发展得非常快,并且能够建立可以预测大脑中病变的确切位置的 3D 模型。 它的图像识别技术有助于轻松发现脑肿瘤和其他脑相关疾病。

11. 自动语言翻译:

​   如今,如果我们访问一个新地方并且我们不知道该语言,那么这根本不是问题,因为机器学习也通过将文本转换为我们已知的语言来帮助我们。谷歌的GNMT(谷歌神经机器翻译)提供了这个功能,这是一种将文本翻译成我们熟悉的语言的神经机器学习,称为自动翻译。 自动翻译背后的技术是一种序列到序列学习算法,它与图像识别一起使用并将文本从一种语言翻译成另一种语言。

2.0机器学习分类

2.1按任务类型分类

(1)回归问题

​   回归问题就是利用数理统计中的回归分析技术,来确定两种或两种以上变量之间的依赖关系。

image-20220905074916802

(2)分类问题

分类问题是机器学习中最常见的一类任务,利用图像分类,文本分类等。

image-20220905075604422

(3)聚类问题

​   聚类问题有称群分析,目标是将样本划分为紧密关系的子集或簇,简单来说就是希望利用模型将样本数据集聚合成几大类,算是分类问题中的一种特殊情况,。

image-20220905080609757

(4)降维问题

​   降维是指采用某种映射方法,将高维空间中的数据点映射到底维空间。为什么要使用降维?可能是原始高维空间中包含冗余信息或噪声,需要通过降维将其消除;也可能是某些数据集的特征维度过大,训练过程比较困难,需要通过降维俩减少特征的量。

2.2按学习方式分类

(1)有监督学习

​   简称监督学习,是指基于一组带有结果标注的样本训练模型,然后用该模型对新的未知结果的样本作出预测。

常见监督学习方式:分类、回归

(2)无监督学习

​   无监督学习中,训练样本的结果信息没有被标注,即训练集的结果标签是未知的。我们的目标是,通过对这些无标记训练样本的学习来揭示数据的内在规律,发现隐藏在数据之下的内在模式。

常见无监督学习的方式:聚类、降维

(3)强化学习

​   又称评价学习,是从动物学习参数扰动自适应控制等理论发展而来的,它把学习过程看做一个试探评价过程。

image-20220905082022877

​   机器先选择一个初始化动作作用于环境,环境接收到该动作后状态发生变化,同时产生一个强化信号反馈给机器,机器再根据强化信号和环境当前状态选择下一个动作,选择的原则是是使受到正强化的概率增大。通俗的讲就是,让机器自己不断如尝试和探索,采取一定的趋利避害的策略,通过不断的试错和调整,最终机器会发现,哪种行为会产生最大回报,,从而学习出自己的一套较为理想的处理问题的模式,当以后再面临一些问题时,他就可以很自然的采用一种最佳模式去应对和处理。

​   强化学习是一种重要的机器学习方法,在智能控制机器人和分析预测等领域有许多应用,比如在围棋界打败世界冠军的AlphaGo就运用了强化学习。

2.3生成模型与判别模型

​   这里补充一个比较重要的概念,即生成模型和判别模型。在有监督学习中,学习方法可以进一步划分为生成方法和判别方法所学到的模型对应称为生成模型和判别模型

​   常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、 boosting、条件随机场、神经网络等。

​   常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、 LDA、 Restricted、 Boltzmann Machine 等。

(1)生成模型

image-20220905083533561

(2)判别模型

image-20220905083551850

(3)生成方法的特点

image-20220905083713958

(4)判别方法的特点

优点:
​ 1)仅需要有限的样本。节省计算资源,需要的样本数量也少于生成模型。
​ 2)能清晰的分辨出多类或某一类与其他类之间的差异特征,准确率往往较生成模型高。
​ 3)由于直接学习P(y|x),而不需要求解类别条件概率,所以允许我们对输入进行抽象(比如降维、构 造等),从而能够简化学习问题。

缺点:

​ 1)不能反映训练数据本身的特性。能力有限,可以告诉你的是1还是2,但没有办法把整个场景描述出 来。

​ 2)没有生成模型的优点。

​ 3)黑盒操作: 变量间的关系不清楚,不可视。

3.0机器学习三要素

机器学习方法=模型+策略+算法

3.1模型

​   模型的实质是一个假设空间(hypothesis space),这个假设空间是“输入空间到输出空间所有映射”的一个集合,这个空间的假设属于我们的先验知识

​   一般来说,机器学习模型会分为判别模型(Discriminative Model)和生成模型(Generative Model)两类

​   判别模型相对来说更常用,感知机(Perceptron)、逻辑回归(LR)、支持向量机(SVM)、神经网络(NN)、K近邻(KNN)、线性判别分析(LDA)、Boosting、条件随机场(CRF)模型都属于判别模型。判别模型本身又分为两类:

  (1)直接对输入空间到输出空间的映射建模;

  (2)分两步,先对条件概率P(y|x)建模,再分类。

3.2策略

关于策略的部分,这里使用简单易懂的语言进行解释:

image-20220905084713919

  欠拟合(Underfitting):学习数据过少,无法很好的拟合形状特征

  过拟合(Overfitting):过度学习历史数据,导致它在真正预测时效果会很不好

  经验风险(Empirical risk):训练集的平均损失

  经验风险最小化(Empirical risk minimization, ERM):最小的经验风险

  结构风险(Structural risk):度量模型的复杂度

  结构风险最小化(Structural risk minimization, SRM):模型复杂度降到最低

  损失函数(Loss function):反映拟合程度的好坏

  代价函数(Cost function):度量经验风险的函数

  目标函数(Object function):目标函数 为了得到训练逻辑回归模型的参数,需要一个目标函数,通过训练目标函数来得到参数。 用于找到最优解的目的函数

正则化(Regularization):结构风险的别称

3.3算法

(1)梯度下降法

​   是机器学习中最常见的迭代方法:梯度是上升最快的方向,那么如果逆着上升最快的方向就是此刻下降最快的方向,所以GD通常也称最速下降法

(2)牛顿法

​   牛顿法则是用切线来建立迭代关系式的算法(所以也叫切线法)。牛顿法的迭代过程与梯度下降法有相似之处,只不过是用切线与x轴的交点来作为下一轮迭代的起点,

(3)拟牛顿法

​   它的本质和牛顿法相同,不同的是使用一个正定矩阵来近似Hessian矩阵的逆矩阵,从而简化了运算的复杂度

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fang GL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值