机器学习第一章笔记

最新推荐文章于 2024-09-08 17:47:40 发布

monaso

最新推荐文章于 2024-09-08 17:47:40 发布

阅读量283

点赞数 1

分类专栏： Machine Learning 文章标签： Machine Learning

1 篇文章 0 订阅

订阅专栏

机器学习是一门能够让编程计算机从数据中学习的计算机科学。系统用来学习的示例，我们成为训练集

根据训练期间接受的监督数量和监督的类型，可以将机器学习系统分为以下四个主要类别：监督式学习，无监督式学习，半监督式学习，强化学习

4.1.1 监督式学习

在监督学习中，提供给算法的包含所需要解决方案的训练数据，成为标签或者标记。

一些回归算法也可以用于分类任务，反正依然成立。（逻辑回归就被广泛的用于分类）这里是一些最重要的监督学习算法：

4.1.2 无监督式学习

无监督式学习的训练数据都是未标记的，系统会在没有老师的情况下进行学习。重要的无监督学习算法：

聚类算法

可视化和降维

关联规则学习

无监督学习的例子：可视化算法，聚类算法检测相似访客的分组。异常检测以及关联规则学习（为了挖掘大量数据，发掘属相之间的联系）降维:降维的目的是为了在不丢失太多信息的前提下简化数据。方法之一是将多个相关的特征值合并为一个，这个过程叫做特征值提取。

推荐做法：先使用降维算法减少训练集数据的维度，再将其供给给机器学习算法（例如监督式学习算法），这样运行的快，占的磁盘空间和内存会更小。性能也更好。

4.1.3 半监督式学习

有些算法可以处理部分标记的训练数据-通常是大量未标记数据和少量标记数据。这称为半监督式学习例子：相片托管服务（如Google相册）大多数的半监督式学习算法是无监督学习和监督学习的结合

4.1.4 强化学习

强化学习的系统能够观察环境，做出选择，执行操作，并获得回报。

4.1.5 批量学习和在线学习

在批量学习中，系统无法进行增量学习，必须使用所有可用数据进行训练，这需要大量的时间和资源，所有一般情况下都是离线完成的。离线学习就是先训练系统，然后将其投入到生产环境中，这时学习过程就停止，他只是将所学的应用出来。
在在线学习中，你可以循环渐进地给系统提供训练数据，逐步积累学习成果，这种提供数据的方式可以是单独的，也可以采用小批量的数据进行训练。对于超大数据集，在线学习也同样使用，算法只是每次加载部分数据，并针对部分数据进行训练，然后不断重复整个过程，直到所有数据训练。
- 在线学习系统还有一个重要参数：它适应不断变化的数据速度。这个是所谓的学习率。
- 在线学习还有一个重大的挑战：如果给系统输入不良的数据。系统的性能就会下降。

注意：在线学习通常也是离线完成的（并不是在live的系统上），因此在线学习这个容易让人误解，我们可以视其为增量学习。

4.1.6 基于实例和基于模型的学习

泛化的主要方法有两种：基于实例的学习和基于模型的学习

训练数据的数量不足
训练数据不具有代表性
质量差的数据
无关特征，特征过程包括：
- 只有训练数据里包括足够多的相关特征以及较少的无关特征，系统才能够完成学习。
- 特征选择：从现有特征中选择最有用的特征进行训练
- 特征提取：将现有特征进行整合，产生更有用的特征
- 通过收集新数据创造新特征
训练数据过度拟合
- 过度拟合是指模型在训练数据上表现良好，但泛化时却不尽如人意。
训练数据拟合不足
- 拟合不足和过度拟合正好相反，它的产生通常是因为对于下层数据结构来说，你的模型太过简单。