一、理解机器学习技术
什么是机器学习(machine learning)?
机器学习:就是计算机从数据中学习出规律和模式,以应用在新数据上做预测的任务。
机器学习是人工智能的核心(分支)。
- 人工智能(AI):其本质是用数据和模型去为现有的问题(existing problems)提供解决方法(solutions)。
- 数据挖掘:有目的地从现有大数据中提取数据的模式和模型(核心目的是找到数据变量之间的关系)。
二、机器学习的应用
常用于:图像识别、语音识别、故障诊断、规划和问题求解、数据挖掘、自然语言理解、无人机等。
主要集中在分类和问题求解
三、机器学习的分类(类型)
1、监督学习
输入数据被称为“训练数据”,每组训练数据都有一个明确的标识或结果。
监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断调整预测模型,直到模型的预测结果达到一个预期的准确率。
常见的应用场景有分类和回归
1.1、分类预测
分类的含义:打造模型,将数据分类进入不同类别。
分类问题是用于将事物打上一个标签,结果通常是一个离散值。
分类没有逼近的概念(即:对就是对,错就是错。)。
1.2、回归分析
回归和分类是紧密联系的。分类是预测离散的类别,而回归则适用于当预测“类别”由连续的数字组成。
如预测房价、未来的天气情况等。
回归是对真实值的一中逼近预测。
常见的回归算法就是线性回归算法(LR)。
1.3、监督学习算法
朴素贝叶斯
逻辑回归
KNN(最邻近算法)
随机森林
神经网络(深度学习)
SVM
决策树
2、无监督学习
在无监督学习中,数据并没有特别的标示或结果。学习模型是为了推断出数据的一些内在结构。
常见的应用场景有聚类和关联规则的学习。
2.1、聚类
聚类是用来分析不含有预先标记过的类别的数据。数据个体分组原则:最大化组内相似度、最小化组间相似度。
K-means聚类是一种通用目的的算法。聚类的度量基于样本点之间的几何距离。集群是围绕在聚类中心的族群。
2.2、关联规则
Apriori算法:如有名的“尿布和啤酒”的故事。
关联规则强度:用支持度和置信度来度量。
支持度:一个项集或规则在所有事物中出现的概率,确定规则可以用于给定数据集的频繁程度。
置信度:确定Y在包含X的事务中出现的频繁程度。
3、半监督学习
数据没有标签,训练出标签。
4、强化学习
包含两个最基本的元素:状态与动作。
5、机器学习算法
四、机器学习流程
四个步骤:数据预处理(Preprocessing)、模型学习(Learning)、模型评估(Evaluation)、预测(Prediction)。
数据预处理一般是时间花的最多的阶段。
1、数据处理
(已经凌晨两点了,晚安,)待续...
2、模型学习
3、模型评估
4、预测