Table of Contents
机器学习(Machine Learning)
机器学习不是某种具体的算法,而是很多算法的统称。(© easyai)
机器学习的基本思路
- 把现实问题抽象成数学问题(数学模型)
- 利用数学方法对这个数学问题进行求解
- 评估这个数学数学模型,解决了具体的实际问题
机器学习分类
根据训练方法大致可以分为
- 监督学习 Supervised Learning
- 无监督学习 Unsupervised Learning
- 强化学习 Reinforcement Learning
半监督学习 Semi-supervised Learning 是上面三类的变种,本质无改变
监督学习
是机器学习中的一种训练方式/学习方式
监督学习需要有明确的目标,很清楚自己想要什么结果。(© easyai)
监督学习是指我们给算法一个数据集,并且给定正确答案。机器通过数据来学习正确的计算方法。(© easyai)
监督学习有两个主要的任务
- 回归:预测连续的、具体的数值。预测芝麻信用分
- 分类:对各种事物分门别类,用于离散型预测。预测离婚
无监督学习
是机器学习中的一种训练方式/学习方式
本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。(© easyai)
无监督学习没有明确目的的训练方式,你无法提前知道结果是什么。
无监督学习不需要给数据打标签。
无监督学习几乎无法量化效果如何。
通过无监督学习,我们可以快速把行为进行分类,虽然我们不知道这些分类意味着什么,但是通过这种分类,可以快速排出正常的用户,更有针对性的对异常行为进行深入分析。(© easyai)
无监督学习使用场景
- 发现异常
- 用户细分
- 推荐系统
无监督学习上两种主流学习方式
- 聚类:一种自动分类的方法,但是你不清楚在聚类操作后得到的分类分别代表什么意思。
- 通常根据「相似性」将数据分为多类的过程,使用的方法计算两个样本之间的「距离」。
- 欧式距离
- 曼哈顿距离
- 马氏距离
- 夹角余弦
- 通常根据「相似性」将数据分为多类的过程,使用的方法计算两个样本之间的「距离」。
- 降维:保证数据所具有的代表性特性或者分布的情况下,将高维数据转化为低位数据的过程
- 数据的可视化
- 精简数据
强化学习
不需要大量的“数据喂养”,而是通过自己不停的尝试来学会某些技能。
机器学习在实际操作层面一共分为7步:
- 收集数据
- 数据准备
- 选择一个模型
- 训练
- 评估
- 参数调整
- 预测(开始使用)