机器学习(一)

一、理解机器学习技术

什么是机器学习(machine learning)?

机器学习:就是计算机从数据中学习出规律和模式,以应用在新数据上做预测的任务。

机器学习是人工智能的核心(分支)。

  • 人工智能(AI):其本质是用数据和模型去为现有的问题(existing problems)提供解决方法(solutions)。
  • 数据挖掘:有目的地从现有大数据中提取数据的模式和模型(核心目的是找到数据变量之间的关系)。

二、机器学习的应用

常用于:图像识别、语音识别、故障诊断、规划和问题求解、数据挖掘、自然语言理解、无人机等。

主要集中在分类问题求解

三、机器学习的分类(类型)

1、监督学习

输入数据被称为“训练数据”,每组训练数据都有一个明确的标识或结果

监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断调整预测模型,直到模型的预测结果达到一个预期的准确率。

常见的应用场景有分类回归

1.1、分类预测

分类的含义:打造模型,将数据分类进入不同类别。

分类问题是用于将事物打上一个标签,结果通常是一个离散值。

分类没有逼近的概念(即:对就是对,错就是错。)。

1.2、回归分析

回归和分类是紧密联系的。分类是预测离散的类别,而回归则适用于当预测“类别”由连续的数字组成。

如预测房价、未来的天气情况等。

回归是对真实值的一中逼近预测。

常见的回归算法就是线性回归算法(LR)。

1.3、监督学习算法

朴素贝叶斯

逻辑回归

KNN(最邻近算法)

随机森林

神经网络(深度学习)

SVM

决策树

2、无监督学习

在无监督学习中,数据并没有特别的标示或结果。学习模型是为了推断出数据的一些内在结构。

常见的应用场景有聚类关联规则的学习。

2.1、聚类

聚类是用来分析不含有预先标记过的类别的数据。数据个体分组原则:最大化组内相似度、最小化组间相似度。

K-means聚类是一种通用目的的算法。聚类的度量基于样本点之间的几何距离。集群是围绕在聚类中心的族群。

2.2、关联规则

Apriori算法:如有名的“尿布和啤酒”的故事。

关联规则强度:用支持度置信度来度量。

       支持度:一个项集或规则在所有事物中出现的概率,确定规则可以用于给定数据集的频繁程度。

       置信度:确定Y在包含X的事务中出现的频繁程度。

3、半监督学习

数据没有标签,训练出标签。

4、强化学习

包含两个最基本的元素:状态与动作。

5、机器学习算法

 

四、机器学习流程

四个步骤:数据预处理(Preprocessing)、模型学习(Learning)、模型评估(Evaluation)、预测(Prediction)。

数据预处理一般是时间花的最多的阶段。

1、数据处理

(已经凌晨两点了,晚安,)待续...

2、模型学习

3、模型评估

4、预测

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小蛋糕哥哥

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值