什么是机器学习
机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键
经典定义:利用经验改善系统自身的性能
随着该领域的发展,其目前主要研究智能数据分析中的理论和方法,并已成为智能数据分析技术的源泉之一
基本概念
学习过程
- 数据类编标记
- 使用学习算法训练
- 得到模型标记新数据样本
基本术语
监督学习、无监督学习
数据集;训练;测试
示例(instance)、样例(example)
样本(sample)
属性(attribute)、特征(feature)、属性值
属性空间、样本空间、输入空间
特征向量(feature vector)
标记空间、输出空间
假设 hypothesis
真相 ground-truth
学习器 learner
分类、回归
二分类、多分类
正类、反类
未见样本 unseen instance
未知“分布”
独立同分布
泛化 generalization
机器学习任务分类
根据样本数据的标记(label)特性,可将机器学习任务分为:
- 监督学习:样本特征x均有对应的样本标记y
- 无监督学习:样本特征x均没有对应的样本标记y
- 半监督学习:样本特征x大部分没有对应的样本标记y
- 强化学习:可近似理解为具有延迟标记信息
假设空间
学习过程–>所有假设组成空间中进行搜索
目标:找到和训练集“匹配"的假设
归纳偏好
机器学习算法在学习过程中对某类型假设偏好(必然有
归纳偏好是否与问题匹配多数情况决定了算法是否优良
一般原则:奥卡姆剃刀
No free lunch启示
所有问题出现的机会相同,所有问题同等重要
脱离具体问题讨论算法没有意义
模型评估选择
-
泛化能力
需要注意过拟合和欠拟合 -
评估方法
关键如何获得”测试集“
留出 hold-out
交叉检验法cross validation -
k-折交叉检验法
- 性能度量
性能度量是衡量模型泛化能力的评价标准
反应任务需求
回归:均方误差
E
(
f
,
D
)
=
∫
x
∼
D
(
f
(
x
)
−
y
)
2
p
(
x
)
d
x
E(f,\mathcal{D})=\int_{x\sim\mathcal{D}}(f(x)-y)^2p(x)dx
E(f,D)=∫x∼D(f(x)−y)2p(x)dx
分类:错误率
E
(
f
,
D
)
=
∫
x
∼
D
I
(
f
(
x
)
≠
y
)
2
p
(
x
)
d
x
E(f,\mathcal{D})=\int_{x\sim\mathcal{D}}\mathbb{I}(f(x)\neq y)^2p(x)dx
E(f,D)=∫x∼DI(f(x)=y)2p(x)dx
分布D的概率密度函数为 p(x) 而
I
\mathbb{I}
I为示性函数
查准率
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP
查全率
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP
F1:查准率查全率权衡
$$F1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN}¥¥
- 偏差方差分解
总结:
- 机器学习任务分类
- 性能评估方法(例如,k-折交叉验证)与性能度量指标
(例如,均方误差、错误率) - 泛化误差 vs. 经验误差