【机器学习 01】机器学习概念及其分类

目录

1. 什么是机器学习 ( Machine Learning )?

2. 机器学习的分类

2.1 监督学习的分类

3. 机器学习算法过程

4. 没有午餐定理

5. 总结

6. 测试


博主拉了个机器学习的交流群,有兴趣私聊我加入~

1. 什么是机器学习 ( Machine Learning )?

① 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
② 在计算机系中,“经验"通常以"数据"形式存在。因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型”(model)的算法,即"学习算法"(learning algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型。
③ ARTHUR SAMUEL对机器学习的定义: Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed.机器学习是这样的领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式编程获得的。

什么是非显著式编程?
事先不约束计算机应该得出什么规律,而是让计算机自己去总结规律,得到能够区分的最大特点。

④ 1998 年,Tom Mitshell 在他的书《MachineLearning》中给出了一个更形式化的定义:A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by p, improves with experience E.
一个计算机程序被称为可以学习, 是指它能够针对某个任务 T 和某个性能指标 P ,从经验 E 中学习。这和学习的特点是,它在 T 上的被 P 所衡量的性能,会随着经验 E 的增加而提高。

2. 机器学习的分类

机器学习分为监督学习和强化学习。
① 监督学习(Supervised Learning):经验 E 是训练样本和标签的集合,所有的经验 E 都是由人工采集并输入计算机的。
② 强化学习(Reinforcement Learning):定义行为的收益函数(Reward Function),改变自己的行为去最大化收益函数。强化学习是计算机通过与环境的互动逐渐强化自己的行为模式。

2.1 监督学习

监督学习,即告知了正确答案。

2.1.1 监督学习根据数据标签存在与否的分类

① 传统监督学习(Traditional Supervised Learning):每一个训练数据都有对应的标签。
算法包括:支持向量机(SUPPORT VECTOR MACHINE)、人工神经网络(NEURAL NETWORKS)、深度神经网络(Deep Neural Networks)
② 半监督学习(Semi-supervised Learning):训练数据中一部分有标签
一部分没有标签。用少量的标注数据和大量未标注数据,去研究更好的机器学习算法。

2.1.2 监督学习根据数据标签固有属性

监督学习分为两种:回归问题、分类问题。

回归问题:预测连续的数值输出。(例如:预测股票价格、预测温度、预测人的年龄)

分类问题:设法预测一个离散值输出(例如分类成:0 或 1,实际上会有很多分类、人脸识别)。
分类和回归问题的界限其实是非常模糊,因为离散和连续的定义也是可以相互转换的。

2.2 无监督学习

给你一堆数据,不知道它们的类型,是什么数据,能找出这些数据的结构吗?事先不知道有哪些类型,能自动按得到的类型把这些个体分成蔟吗?没有给出正确答案,这就是无监督学习。

无监督学习(Unsupervised Learning):所有训练数据都没有对应的标签。需要假设:同一类的训练数据在空间中距离更近,根据样本的空间信息,设计算法将它们聚集为两类,从而实现没有标签的机器学习。无监督学习判定数据包含几个蔟、例如聚类算法(谷歌news)
算法包括:聚类(Clustering)、EM算法(Expectation-Maximization algorithm)、主成分分析(Principle Component Analysis)

3. 机器学习算法过程

3.1 特征提取(Feature Extraction)
首先认真观察数据,通过训练样本获得的,对机器学习任务有帮助的多维度数据。
特征提取的方法:链码和图像坐标、一个含孔洞的目标。
机器学习的重点:是假设在已经提取好特征的前提下,如何构造算法获得更好的性能。
3.2 不同的算法对特征空间做不同的划分
3.3 获得不同的结果

4. 没有午餐定理

1995年,D. H. Wolpert等人提出没有午餐定理。任何一个预测函数,如果在一些训练样本上表现好,那么必然在另一些训练样本上表现不好,如果不对数据在特征空间的先验分布有一定假设,那么表现好与表现不好的情况一样多。
在设计机器学习算法的时候,有一个假设:在特征空间上距离接近的样本,他们属于同一个类别的概率会更高。
总结:如果不对特征空间的先验分布做假设,那么所有算法的表现都一样。
机器学习的本质:通过有限的已知数据,在复杂的高维特征空间中预测未知的样本。

5. 总结

人脸识别:CASIA-WebFace 数据集
人脸性别和年龄估计:IMDB 数据集

6. 测试

给定一定数量的红细胞、白细胞图像,但是并不知道图像与标签的对应关系,设计一个红白细胞分类器,这属于()问题。
A. 半监督学习
B. 监督学习
C. 以上都可以
D. 无监督学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不菜不菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值