10.1 西瓜书《机器学习》课后答案——chapter10 _10.1 KNN算法
10.2 令err,err∗分别表示最近邻分类器与贝叶斯最优分类器的期望错误率,试证明:
解答:
不知道这里所谓的期望错误率是指什么。在原论文Nearest Neighbor Pattern Classification. 1967.中,定义的是NN条件风险 r(x,x′n) 与NN总体风险 R ,以及贝叶斯条件风险
贝叶斯条件风险与贝叶斯风险:
假设已知条件分布 P(C|X) 与损失函数 L(i,j) , L(i,j) 表示把i类实例误分为j类的损失。定义实例x上的条件风险为
这个式子可以这样理解:实例的类别并不是唯一确定的,而是在所有类别上有一个分布。如果把实例划分为类别j,那么损失为L(i,j)的期望损失。
贝叶斯决策规则会把实例x分类到条件风险最小的类别,对应的条件风险称为Bayes条件风险:
Bayes条件风险的期望称为Bayes风险:
这是所有的分类器所能达到的最小风险。
如果损失函数为0-1损失函数,则
NN条件风险与NN风险:
给定训练数据 {
(x1,θ1),(x2,θ2),…,(xn,θn)} 。对实例 x ,可以得到训练集中距离
如果所有的训练样本对都是随机变量,可以定义NN条件风险为: