经验E在任务T上有提高评价P
分类
一级类别 | 二级类别 | 特点 | |
---|---|---|---|
监督学习 | 人们教计算机学习 | 回归(数据连续) 分类(数据离散) | 需要预测目标变量: 数值型数据 或 类别型数据 |
无监督学习 | 计算机自己学习 | 密度估计 (与分组的相关联程度) 聚类 (划分为分组) | 不需要预测目标变量 |
强化学习 |
算法总结
一级类别 | 二级类别 | 三级类别 |
---|---|---|
回归 | 线性回归 | 一元线性回归 |
多元线性回归 | ||
分类 | 二分类 | |
多分类 |
注意:多分类、多特征(多维)的区别
如何选择算法
- 缩小算法的选择范围。
是否需要预测目标变量的值–>选择“监督学习”?“非监督学习”?–>再进一步选择分类or回归?聚类or密度估计? - 尝试多种算法的执行效果。对于每种算法,都可以改进提升。
数据集
特征1 | 特征2 | … | 目标变量 | |
---|---|---|---|---|
实例1 | ||||
实例2 | ||||
实例3 |
m
m
m:样本数,
n
n
n:特征数
(
x
,
y
)
(\boldsymbol{x},y)
(x,y):样本集
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)}, y^{(i)})
(x(i),y(i)):第
i
i
i个样本,
i
=
1
,
2
,
.
.
.
i=1,2,...
i=1,2,...
例子
不能人工编程实现:CN、NLP、手写识别
鸡尾酒聚会算法:分离一个音源的多种声音
新闻聚类:多个类似主题的新闻聚类展示,并自动得到一个“主题词”