文档背景
机器学习和深度学习的概念十分火热。听上去也很难,不慌,有时候就需要行动在前脑子在后。不管,干就完啦。
前言
人工智能(ArtificialIntelligence,AI)是最宽泛的概念,是研发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。由于这个定义只阐述了目标,而没有限定方法,因此实现人工智能存在的诸多方法和分支,导致其变成一个“大杂烩”式的学科。
机器学习(MachineLearning,ML)是当前比较有效的一种实现人工智能的方式。
深度学习(DeepLearning,DL)是机器学习算法中最热门的一个分支,近些年取得了显著的进展,并替代了大多数传统机器学习算法。
1、机器学习
1.1、机器学习的实现
机器学习可以分成两部:训练和预测,类似于归纳和演绎:
- 归纳: 从具体案例中抽象一般规律,机器学习中的“训练”亦是如此。从一定数量的样本(已知模型输入X和模型输出Y)中,学习输出Y与输入X的关系(就是某种表达式)
- 演绎:从一般规律推导出具体案例的结果,机器学习中的“预测”亦是如此。基于训练得到的Y与X的关系,如出现新的输入X,计算出输出Y。通常情况下,如果通过模型计算的输出和输出的真实场景的输出一致,则说明模型是有效的。
1.2、机器学习的方法论
机器学习的方法论和人类科研的过程有着异曲同工之妙,即在"机器思考"的过程中确定模型的三个关键要素:假设、评价、优化。
1.2.1、如何确定模型参数
- 合理的假说可以最大化解释所有已知观测数据
- 如果后续观测到不符合理论假说的新数据,则应提出新的假说
- 模型有效的基本条件是能够拟合已知的样本
下图是以H为模型的假设,它是一个关于参数w和输入x的函数,用H(w,x)H(w, x)H(w,x) 表示。模型的优化目标是H(w,x)H(w, x)H(w,x)的输出与真实输出Y尽量一致,两者的相差程度即是模型效果的评价函数(相差越小越好)。那么,确定参数的过程就是在已知的样本上,不断减小该评价函数(H和Y的差距)的过程。直到模型学习到一个参数w,使得评价函数的值最小,衡量模型预测值和真实值差距的评价函数也被称为损失函数(损失Loss)。
1.2.2、模型结构
机器执行学习任务的框架体现了其学习的本质是“参数估计”(Learning is parameter estimation)
就是从训练样本中的得到一个算法,然后提出最终假设
类似于下面,根据不同的输入参数,得到不同的响应结果。
2、深度学习
在深度学习框架出现之前,机器学习工程师处于“手工作坊”生产的时代。
为了完成建模,工程师需要储备大量数学知识,并为特征工程工作积累大量行业知识。每个模型是极其个性化的,建模者如同手工业者一样,将自己的积累形成模型的“个性化签名”。
而今,“深度学习工程师”进入了工业化大生产时代,只要掌握深度学习必要但少量的理论知识,掌握Python编程,即可在深度学习框架上实现非常有效的模型,甚至与该领域最领先的模型不相上下。建模领域的技术壁垒面临着颠覆,也是新入行者的机遇。