目录
1. 什么是机器学习 ( Machine Learning )?
博主拉了个机器学习的交流群,有兴趣私聊我加入~
1. 什么是机器学习 ( Machine Learning )?
① 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
② 在计算机系中,“经验"通常以"数据"形式存在。因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型”(model)的算法,即"学习算法"(learning algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型。
③ ARTHUR SAMUEL对机器学习的定义: Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed.机器学习是这样的领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式编程获得的。
什么是非显著式编程?
事先不约束计算机应该得出什么规律,而是让计算机自己去总结规律,得到能够区分的最大特点。
④ 1998 年,Tom Mitshell 在他的书《MachineLearning》中给出了一个更形式化的定义:A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by p, improves with experience E.
一个计算机程序被称为可以学习, 是指它能够针对某个任务 T 和某个性能指标 P ,从经验 E 中学习。这和学习的特点是,它在 T 上的被 P 所衡量的性能,会随着经验 E 的增加而提高。
2. 机器学习的分类
机器学习分为监督学习和强化学习。
① 监督学习(Supervised Learning):经验 E 是训练样本和标签的集合,所有的经验 E 都是由人工采集并输入计算机的。
② 强化学习(Reinforcement Learning):定义行为的收益函数(Reward Function),改变自己的行为去最大化收益函数。强化学习是计算机通过与环境的互动逐渐强化自己的行为模式。
2.1 监督学习
监督学习,即告知了正确答案。
① 传统监督学习(Traditional Supervised Learning):每一个训练数据都有对应的标签。
算法包括:支持向量机(SUPPORT VECTOR MACHINE)、人工神经网络(NEURAL NETWORKS)、深度神经网络(Deep Neural Networks)
② 半监督学习(Semi-supervised Learning):训练数据中一部分有标签
一部分没有标签。用少量的标注数据和大量未标注数据,去研究更好的机器学习算法。
监督学习分为两种:回归问题、分类问题。
回归问题:预测连续的数值输出。(例如:预测股票价格、预测温度、预测人的年龄)
分类问题:设法预测一个离散值输出(例如分类成:0 或 1,实际上会有很多分类、人脸识别)。
分类和回归问题的界限其实是非常模糊,因为离散和连续的定义也是可以相互转换的。
2.2 无监督学习
给你一堆数据,不知道它们的类型,是什么数据,能找出这些数据的结构吗?事先不知道有哪些类型,能自动按得到的类型把这些个体分成蔟吗?没有给出正确答案,这就是无监督学习。
无监督学习(Unsupervised Learning):所有训练数据都没有对应的标签。需要假设:同一类的训练数据在空间中距离更近,根据样本的空间信息,设计算法将它们聚集为两类,从而实现没有标签的机器学习。无监督学习判定数据包含几个蔟、例如聚类算法(谷歌news)
算法包括:聚类(Clustering)、EM算法(Expectation-Maximization algorithm)、主成分分析(Principle Component Analysis)
3. 机器学习算法过程
3.1 特征提取(Feature Extraction)
首先认真观察数据,通过训练样本获得的,对机器学习任务有帮助的多维度数据。
特征提取的方法:链码和图像坐标、一个含孔洞的目标。
机器学习的重点:是假设在已经提取好特征的前提下,如何构造算法获得更好的性能。
3.2 不同的算法对特征空间做不同的划分
3.3 获得不同的结果
4. 没有午餐定理
1995年,D. H. Wolpert等人提出没有午餐定理。任何一个预测函数,如果在一些训练样本上表现好,那么必然在另一些训练样本上表现不好,如果不对数据在特征空间的先验分布有一定假设,那么表现好与表现不好的情况一样多。
在设计机器学习算法的时候,有一个假设:在特征空间上距离接近的样本,他们属于同一个类别的概率会更高。
总结:如果不对特征空间的先验分布做假设,那么所有算法的表现都一样。
机器学习的本质:通过有限的已知数据,在复杂的高维特征空间中预测未知的样本。
5. 总结
人脸识别:CASIA-WebFace 数据集
人脸性别和年龄估计:IMDB 数据集
6. 测试
给定一定数量的红细胞、白细胞图像,但是并不知道图像与标签的对应关系,设计一个红白细胞分类器,这属于()问题。
A. 半监督学习
B. 监督学习
C. 以上都可以
D. 无监督学习