3-2 在线性空间中,证明一个点x到的距离为
答:设平面有一点使得垂直于该平面,又垂直于该平面,故,得(k为常数),因此点x到平面距离为。
又,
得,将带入得
两边同时取模,得,即,证毕
3-5 在Logistic回归中,是否可以用去逼近正确的标签y,并用平方损失最小化来优化参数w?
在Logistic回归中可以用sigmoid函数去逼近正确的标签y
Sigmoid 函数自身具有连续且单调递增、关于(0,0.5) 中心对称、求导非常快速的性质
而logistic回归的损失函数非指数族,认为函数其概率服从伯努利分布,将其写成指数族分布的形式,也就是:
T(y)=yT(y)=y
α(η)=−log(1−ϕ)α(η)=−log(1−ϕ)
b(y)=1
能够推导出sigmoid函数的形式。
在机器学习中,一般要解决的问题是根据x的值对y做预测。用LPM模型的问题是预测的Y可能会超出其实际的(0,1)区间,因此不能用这个模型。
一个直观的解决方式是,构造一个函数g(y),使g ( y ) ⊂ ( 0 , 1 ) 。一般机器学习讲logistic回归由此会得出结论,需要采用sigmoid函数形式。
其实logistic回归用sigmoid函数就是从广义线性模型推广出来的。
不能用平方损失函数最小化来优化参数w
如果logistic回归的损失函数也定义为平方损失,那么:
其中:𝑖表示第𝑖个样本点𝑧𝑖 = 𝑥𝑖 ∗ 𝑤 + 𝑏,𝜑 (𝑧𝑖 )表示对𝑖个样本的预测值,𝑦𝑖表示第𝑖个样本的标签值。
将sigmoid函数带入上述非凸函数,有多个极小值。如果采用梯度下降法,会容易陷入局部最优解中。
所以logistic回归一般采用对数损失函数。
习题3-6 在Softmax回归的风险函数(公式(3.9))中,如果加上正则化项会有什么影响?
公式,加入正则化后:
,
,
更新参数时,
加入正则化后,在更新参数时每次需要减去 2λW ,使得参数不会太大,便不会造成溢出之类的错误发生,同时也会抑制过拟合。