机器学习基础了解

文章目录


前言

随着人工智能的不断发展,机器学习这门技术也越来越重要,作为人工智能的核心研究领域之一,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


一、机器学习定义

机器学习:Machine Learning

        机器接收数据,不接受指令,利用数据完成指令。机器学习方法是计算机利用已有的数据,得到了某种模型,并利用此模型预测未来的一种方法。利用经验(数据)来改善计算机系统自身的性能。

        研究动机:让计算机系统具有人的学习能力,以便实现人工智能。

        利用数据->训练模型->预测模型

二、机器学习与数据挖掘的区别与联系

        数据挖掘:识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

        数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习届提供的技术来分析海量数据,利用数据库届的数据来管理海量数据,二者既有区别又有联系,总体来说,机器学习偏理论,数据挖掘偏应用

三、模型评估

        在学习得到的模型投放使用之前,通常需要对其进行性能评估,为此,就需要一个“测试集”来测试模型对新样本的泛化能力,然后以测试集上的“测试误差”作为泛化误差的近似。假设测试集是从样本真实分布中独立采样得到的,所以测试集要和训练集中的样本尽量互斥,及测试集和训练集是两个没有交集的训练集集合。

        给定一个已知的数据集,将数据集拆分为训练集S和测试集T,通常做法包括留出法、交叉验证发、自助法。

留出法:直接将数据集分成两个互斥的集合。在划分时,测试集和训练集要尽可能保持数据分布的一致性。为减小因样本划分不同而引入的差别,一般需要进行若干次随即划分,重复实验然后取其平均值。通常训练样本和测试样本的比例可以为2:1,3:1或者4:1。

        交叉验证法:将数据集分层采样划分为k个大小相同或者相似的互斥子集,每次使用K-1个子集的并集作为训练集,剩余的子集作为测试集,最终返回K个测试结果的均值,K一般取值为10。与留出法类似,将数据集D划分为K个自己同样存在多种划分的方式,为了减少因样本划分不同而引入的差别,K折交叉验证,通常随机使用不同的划分重复P次,最终评估结果时才P次K折交叉验证的均值,例如常见的“10次10折交叉验证”。

        自助法:以自主采样法为基础,对数据集D有放回采样m次得到训练集D',D/D'作为测试集。在自助法中实际模型和预期模型都使用m个训练样本,约有1/3的样本没有出现在训练集中,用作测试集。从初始数据集中产生多个不同的训练集,对集成学习有很大的好处。在数据集较小时,难以有效划分训练集和测试集时,很有用。但由于改变了数据集分布可能引入的估计偏差在数据量足够时,留出法和交叉验证发更常用

四、评估指标

        评估指标:衡量模型泛化能力好坏的评估标准,反映了任务需求。使用不同的评估指标往往会导致不同的评估结果。主要通过准确率和错误率来进行评估。但准确率和错误率只能在分类平衡的数据集中使用,在类不平衡数据集中,一般分:正确分类稀有类、正确分类多数类,而查准率/查全率比准确率/错误率更合适。

        统计真实标记和分类结果的组合可以得到如下所示分类结果的“混淆矩阵”:

 由此也可看出,查准率和查全率是一对矛盾的评估指标。查准率高时,查全率往往低,反之亦然。因此,为综合考虑查准率和查全率,引入F1度量的概念:

条件似然性CLL:可以直接用来度量分类器的类概率估计的性能。

 

五、机器学习范围

        机器学习与模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着很深的联系。一般说数据挖掘时,可以等同于机器学习。

(1)模式识别

       模式识别=机器学习,区别在于,模式识别源自于工业界,机器学习来自于计算机学科。

(2)数据挖掘

        数据挖掘=机器学习+数据库。

(3)统计学习

        近似等于机器学习。

(4)计算机视觉

        计算机视觉=图像处理+机器学习。

(5)语音识别

        语音识别=语音处理+机器学习。

(6)自然语言处理

        文本学习+机器语言。

六、机器学习的方法

(1)回归算法

        分类:线性回归、逻辑回归。

        ①线性回归:拟合,最小二乘法,求函数极值问题。数值计算(梯度下降法、牛顿法)

        ②逻辑回归:分类算法,线性的

(2)神经网络

        ①BP算法(加速神经网络训练过程的数值算法)

        分解和整合

        输入层(接收信号),隐藏层(对数据分解和处理),输出层

        LeNet:识别手写数字

(3)SVM(支持向量机)

        逻辑回归算法的强化

        “核”:将低维的空间映射到高维的空间

        支持向量机:数学成分很浓;神经网络:生物科学成分很浓

(4)聚类算法

        显著特征:训练数据中不含标签,而算法的目的是通过训练,推测出这些数据的标签,称为无监督算法。无监督算法中最典型的代表是聚类算法。该算法上面的算法都是有监督算法,该算法及以下都是无监督算法。

        K-Means算法

(5)降维算法

        无监督算法

        特征:将数据从高维降到低维层次,维度其实表示是数据的特征量的大小。(例如用面积表示长和宽,进行降维)

        主要作用:压缩数据和提升机器学习其他算法的效率,将数据可视化(例如将5维降为2维,然后可以用二维平面来可视

        降维算法主要代表是PCA算法(即主成分分析算法)

(6)推荐算法

        在电商界很火

        主要特征是自行向用户推荐他们感兴趣的东西

        类别:

                ①基于物品内容的推荐,将近似物推荐

                ②基于用户相似度的推荐,将目标用户感兴趣相同的进行推荐

(7)其他 

  1. 监督学习算法:线性回归、逻辑回归、神经网络
  2. 特殊算法:推荐算法
  3. 子算法:①梯度下降法:主要运用在线性回归,逻辑回归,神经网络,推荐算法。②牛顿法:主要运用在线性回归。③BP算法:主要运用在神经网络。④SMO算法:主要运用在SVM中。

七、机器学习的应用——大数据

  • 应用场景:

                2010年之前,应用在某些特定领域,如车牌识别,网络攻击防范,手写字体等

                之后,与大数据高度耦合

  • 大数据:

                大数据核心是利用数据的价值,机器学习是利用数据价值的关键技术。

  • 大数据分类:

                1.大数据,小分析:即数据仓库领域OLAP分析思路,也就是多维分析思想。

                2.大数据,大分析:达标是数据挖掘和机器学习分析法

                3.流式分析:主要指事件驱动改构

                4.查询分析:经典代表是NoSQL

  • 成功的机器学习应用不是拥有更好的算法,而是拥有更多的数据。

八、机器学习的子类——深度学习

  • BP算法的发明人Geoffery Hinton在2006年发表的文章论述了两个观点:1.多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2.深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服。
  • 具有多个隐藏层的神经网络被称为深度神经网络,基于深度神经网络的学习研究称为之深度学习。

九、机器学习的父类——人工智能

  • 工智能指的是一系列使机器能够像人类一样处理信息的技术;机器学习是利用计算机编程从历史数据中学习,对新数据进行预测的过程
  • ​​​​机器学习是对智慧的一大体现,就如计算能力我们有分布式计算,反应能力有事件驱动架构,检索能力有搜索引擎,知识存储能力有数据仓库,逻辑推理能力有专家系统,机器学习能力最能表征智慧。

参考文献

机器学习

慕课:中国地质大学 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值