2021-09-04

最新推荐文章于 2024-10-16 23:02:04 发布

小七每天都要学习

最新推荐文章于 2024-10-16 23:02:04 发布

阅读量120

点赞数

文章标签：概率论机器学习

本文链接：https://blog.csdn.net/qq_40647783/article/details/120102067

版权

参数模型vs非参数模型
- 参数模型会假设总体服从某个分布，这个分布由一些参数决定，比如正态分布由方差与标准差决定，在此基础构建的模型属于参数模型。而非参数模型对于数据的总体分布不做假设或者说数据分布假设自由，知道它分布存在，但是无法知道分布的参数，只能通过分参数统计的方法进行推断
- 非参数模型不是说模型里没有参数，这个“参数”说的是数据分布的参数
- 参考这里
判别式模型与生成式模型
- 判别式模型针对条件分布建模，而生成式模型针对联合分布建模
- 判别式模型根据训练数据得到分类函数以及分界面，学习不同类别之间的最优边界，无法反映训练数据本身的特性，只能告诉我们分类的类别
- 而生成式模型有多少类就会建立多少模型，然后计算联合概率，根据贝叶斯公式计算类别概率，生成式模型可以体现更多数据的分布信息，普适性更广
- 不管是生成式模型还是判别式，判断的都是p(y|x)，但是生成式模型先计算了联合概率，再由贝叶斯公式计算得到条件概率
- 参考这里

归一化
- 为什么进行归一化：可以消除量纲的影响，加快梯度下降的过程，有可能提高精度，比如（KNN）
- 最大最小：适用在数值比较集中的情况，如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量来替代max和min，在不涉及距离度量，协方差计算，数据不符合正太分布的时候使用
标准化
- z-score标准化：数据处理后符合正态分布，本方法要求原始数据的分布要近似高斯分布，否则归一化效果差。在分类聚类，需要使用距离来度量相似性时，或者pca降维时，效果好（各特征之间的大小范围一致，才能使用距离度量等算法）
应用场景
- 概率模型不需要归一化，因为这种模型不关心变量的取值，而是关心变量的分布和变量之间的条件概率
- SVM、线性回归之类的最优化问题需要归一化，是否归一化主要在于是否关心变量取值
- 神经网络需要标准化处理，一般变量的取值在-1到1之间，这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh激活函数比sigmod激活函数要好些，因为tanh双曲正切函数的取值[-1,1]之间，均值为0.
- 在K近邻算法中，如果不对解释变量进行标准化，那么具有小数量级的解释变量的影响就会微乎其微。
- 这里也看看