机器学习笔记——机器学习概述
亚里士多德曾说过:“如果机器能干很多活,岂不能让人类解放出来。”人类一直试图让机器具有智能,也就是人工智能(Artificial Intelligence),一代一代的科学家研究者都在为人工智能的研究持之以恒的奋斗着。1956年的夏天,一场在美国达特茅斯(Dartmouth)大学召开的学术会议,多年以后被认定为全球人工智能研究的起点。2016年的春天,一场AlphaGo与世界顶级围棋高手李世石的人机世纪对战,把全球推上了人工智能浪潮的新高。、
人工智能、机器学习和深度学习关系
用最简单的方法——同心圆,可视化地展现出人工智能(AI)、机器学习(machine learning)和深度学习(deep learning)三者的关系和应用。(参考https://www.leiphone.com/news/201609/gox8CoyqMrXMi4L4.html)
如上图,人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,当今人工智能大爆炸的核心驱动。
五十年代,人工智能曾一度被极为看好。之后,人工智能的一些较小的子集发展了起来。先是机器学习,然后是深度学习。深度学习又是机器学习的子集。深度学习造成了前所未有的巨大的影响。
人工智能是给机器赋予人的智能。我们目前能实现的,一般被称为“弱人工智能”(Narrow AI)。弱人工智能是能够与人一样,甚至比人更好地执行特定任务的技术。例如,Pinterest上的图像分类;或者Facebook的人脸识别。
机器学习是一种实现人工智能的方法。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。
深度学习是一种实现机器学习的方法。
机器学习
机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。需要注意的是,机器学习的目标是使学到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现很好。学到的函数适用于新样本的能力,称为泛化(Generalization)能力。
机器学习的步骤
1、选择一个合适的模型,这通常需要依据实际问题而定,针对不同的问题和任务需要选取恰当的模型,模型就是一组函数的集合。
2、判断一个函数的好坏,这需要确定一个衡量标准,也就是我们通常说的损失函数(Loss Function),损失函数的确定也需要依据具体问题而定,如回归问题一般采用欧式距离,分类问题一般采用交叉熵代价函数。
3、找出“最好”的函数,如何从众多函数中最快的找出“最好”的那一个,这一步是最大的难点,做到又快又准往往不是一件容易的事情。常用的方法有梯度下降算法,最小二乘法等和其他一些技巧(tricks)。
学习得到“最好”的函数后,需要在新样本上进行测试,只有在新样本上表现很好,才算是一个“好”的函数。
机器学习分分类
机器学习的主要任务便是聚焦于两个问题:分类和回归。
分类:分类大家应该好理解,生活中会见到很多的应用,比如垃圾邮件识别、信用卡发放等等,就是基于数据集,作出二分类或者多分类的选择。
回归:回归是会给出一个具体的结果,例如房价的数据,根据位置、周边、配套等等这些维度,给出一个房价的预测。给出一个Y值就是回归。
机器学习按照不同的维度可以有多种角度的分类:
(1)按照任务类型分类
机器学习模型可以分为回归模型、分类模型和结构化学习模型。回归模型就是预测一个值,分类模型有二分类和多分类模型,结构化学习模型的输出不再是一个固定长度的值,如图片语义分析,输出是图片的文字描述。
(2)按照算法的角度分类
机器学习模型可以分为线性模型和非线性模型。
(3)按照数据特征分类
机器学习模型可以分为监督学习、非监督学习、半监督学习、迁移学习和强化学习。当训练样本带有标签时是有监督学习;训练样本部分有标签,部分无标签时是半监督学习;训练样本全部无标签时是无监督学习,无监督学习解决的主要是“聚类(Clustering)”问题。迁移学习就是就是把已经训练好的模型参数迁移到新的模型上以帮助新模型训练。强化学习是一个学习最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前状态(state),做出行动(action),从而获得最大回报(reward)。强化学习和有监督学习最大的不同是,每次的决定没有对与错,而是希望获得最多的累计奖励。
监督学习的常用算法有:K邻近算法KNN,决策树DT,随机森林RF,朴素贝叶斯,人工神经网络,BP,支持向量机SVM,多种回归模型(logistic回归算法,线性回归,生存分析)梯度提升树GBDT,卷积神经网络CNN,LSTM,GAN
无监督学习的常用算法有:K-MEANS聚类,稀疏自编码,限制波尔兹曼机,高斯混合模型,主成分分析,系统聚类,FCN,DBASCAN等