《机器学习基石》课程笔记（3）

最新推荐文章于 2021-03-24 10:50:43 发布

nudt_oys

最新推荐文章于 2021-03-24 10:50:43 发布

阅读量494

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26658823/article/details/78442826

版权

机器学习专栏收录该内容

21 篇文章 1 订阅

订阅专栏

	输出空间	实际应用
不同输出空间下的机器学习
二元分类	$Y = \{ -1, +1 \}$	信用卡分发或不分发、识别垃圾邮件和非垃圾邮件、病人有病或没病、广告是否盈利、答案是否正确
多元分类	$Y = \{ 1, 2, 3,..., K\}$	手写字体分类、图片识别、垃圾邮件更详细的分类
回归	$Y = \mathbb{R}$ 或者 $Y=[lower, upper] \subset \mathbb{R}$	根据病人的特征判断还有多长时间痊愈、通过公司数据预测股票价格、根据天气数据预测温度
结构化学习（序列标记问题）	$Y = structures$	NLP中的词性标注、通过蛋白质数据预测蛋白质的三维结构、将语音数据转化为语音语法树

	简单介绍	实际应用
不同数据标签下的机器学习
有监督学习	对于训练集 $D$ ，每个 $x_n$ 都有一个对应的 $y_n$ ，即训练集中的每个数据的类别是已知的	垃圾邮件分类、图片识别
无监督学习	对于训练集 $D$ ，每个 $x_n$ 没有对应的 $y_n$ ，即训练集中的每个数据的类别是未知的，需要机器自己判断	聚类问题（相当于无监督的多元分类）、密度估计（相当于无监督的有界回归）、离群点检测（相当于无监督的二元分类）
半监督学习	对于训练集 $D$ ，有一部分 $x_n$ 存在对应的类标号 $y_n$ ，而另一部分 $x_n$ 则没有对应的类标号 $y_n$ 。让机器不依赖外界交互，自动的利用未标记的样本提升学习性能。适用于有标记数据少，无标记数据多的情况。	计算机辅助医学影象分析、人脸识别
强化学习	强化学习类似于宠物训练，通过对机器的一系列“惩罚”和“奖励”来实现性能提升。一般来说，强化学习的输入数据是时序化、部分的。	广告推荐、机器人学习

机器学习问题	简单介绍
不同映射方式下的机器学习
批量学习	把所有已知的数据一次性的喂给机器，又称填鸭式学习。这是一种很常见的学习方式。
在线学习	首先输入一个 $x_t$ ，机器根据当前假设预测出 $g_t(x_t)$ ，然后从用户那里得到 $x_t$ 的真实类别 $y_t$ ，用 $(x_t, y_t)$ 更新 $g_t$ 。一般来说，数据的输入是序列化的，即一个一个输入。
主动学习	类似于半监督学习，训练集 $D$ 中有一部分 $x_n$ 存在对应的类标号 $y_n$ ，而另一部分 $x_t$ 则不存在对应的 $y_t$ 。对于一个没有类标号的 $x_t$ ，机器主动向专家询问 $x_t$ 的类标号 $y_t$ ，然后利用新获得的只是训练分类器和进行下一轮询问。

不同的输入空间	简单介绍
不同输入空间下的机器学习
具体数据	输入空间 $X \subseteq \mathbb{R}^d$ 的每一个维度都有复杂的现实含义，通常输入的数据都带有人类的智慧，即被人类描述过得数据。机器学习这些数据是相对比较简单的。
原始数据	输入空间 $X \subseteq \mathbb{R}^d$ 的每一个维度具有普通的现实含义，比如音频识别中得到的音频，相对来说机器学习的难度也会增加。我们需要把这些原始数据转化为具体数据，这个工作可以由机器完成，也可以由人类完成。由机器完成的叫做深度学习，由人类完成的叫做特征工程。
抽象数据	输入空间 $X \subseteq \mathbb{R}^d$ 的每一个维度没有或者只有很少现实含义，比如在线广告系统中的广告ID。对于机器来说这种学习是最困难的，这时候就需要更多的特征工程。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。