斯坦福大学数据挖掘公开课学习笔记____Lesson1_斯坦福数据挖掘公开课学习笔记-CSDN博客

本文链接：https://blog.csdn.net/Txiaomiao/article/details/46929379

Lesson 1

这节课主要介绍机器学习的分类。

(一) 机器学习主要处理的三类问题：

（1） 监督学习（supervisedlearning）：通过学习来预测房屋价格的问题是监督学习问题的一个例子。之所以称之为监督学习是因为我们为这个算法提供了一组房屋大小和某种程度上可以看成正确答案的房屋价格的数据。换句话说，我们在“监督”问题的算法，给算法提供了一组“标准答案”。就像房屋价格这个例子，我们希望算法去学习标准输入和标准答案之间的联系，以尝试对于我们的其他输入给我们提供更为标准的答案。

（2） 无监督学习（unsupervisedlearning）：有一组数据，不告诉我们任何关于数据的任何标准答案，聚类问题（cluster）就是一种最常用的无监督学习的例子。

（3） 强化学习（Reinforcement learning）：它可以被用在你不需要进行一次决策的情形中。例如，在利用监督学习进行癌症预测的例子中，对于一个病人，你要预测他的肿瘤是否为恶性，你的预测决定了病人的生死，你通过决策产生了一个结论，要么对要么错。在强化学习中，对每一个action都进行评估测，如果评测的结果是正向的，则加强这个action的产生策略，用两个神经网络来实现RL一个产生行动的NN，一个评估NN，其中评价用reward function来实现。

（二）学习理论(Learning Theory)

这部分内容虽然和模型算法没有什么直接关系，但是却很重要，是研究机器学习的基础。首先看看PCA(independent component analysis)，中文名叫做主成分分析；在做ML时我们需要做feature extraction，如果feature过多则会有可能造成结果overfitting，这时我们需要做feature降维，即把m个feature将为n个(n<m)，这个过程就叫做PCA，它的理论基础是有些feature之间会有信息重叠，有重叠就会出现冗余，实现的最重要理论是最大方差理论，最好的n维特征是将m维样本点转换为n维后，每一维上的样本方差都很大。第二个概念是ICA(Independent component analysis)，中文名是独立成分分析；(前面说的PCA对于Gaussian分布的数据比较有效，但是对于其它数据分布效果不好)ICA假设信号源(数据或者特征)相互独立，通过一个线性变换，根据信号将其分析出来。