目录
一。使用极大似然估计解释最小二乘法(误差)
高斯分布即正态分布,实际问题中,很多随机现象可以看做众多因素的独立影响的综合反应,往往近似服从正态分布。
二。假设具有的三个性质
1.假设的内涵性
所谓假设,就是根据常理应该是正确的。假设的第一个性质:假设往往是正确的但不一定总是正确。 我们可以称之为“假设的内涵性”。
2.假设的简化性
假设只是接近真实,往往需要做若干简化。如,在自然语言处理中,往往使用词袋模型 (Bag Of Words),认为一篇文档的词是独立的— —这样的好处是计算该文档的似然概率非常简洁,只需要每个词出现概率乘积即可。但我们知道这个假设是错的:一个文档前一个词是“正态”,则下一个词极有可能是“分布”,文档的词并非真的独立。这个现象可以称之为“假设的简化性”。
3.假设的发散性
在某个简化的假设下推导得到的结论,不一定只有在假设成立时结论才成立。如,我们假定文本中的词是独立的,通过朴素 贝叶斯做分类(如垃圾邮件的判定)。我们发现:即使使用这样明显不正确的假设, 但它的分类效果往往在实践中是堪用的。这个现象可以称之为“假设的发散性”。
三。θ的解析式的求解过程(θ为系数)
四。线性回归的复杂度惩罚因子(正则化)
损失函数后面会添加的一个额外项,包括L1正则化和L2正则化,可以看做是损失函数的惩罚项。
一般都会在正则化项之前添加一个系数,Python的机器学习包sklearn中用α表示。
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择(降维)。(lasso)
L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合。(ridge)
Elastic Net将L1正则和L2正则结合到一起
五。广义逆矩阵(违逆)
六。梯度下降算法
1.批量梯度下降算法
2.随机梯度下降算法
3.折中:mini-batch