1.朴素贝叶斯方法介绍: 朴素贝叶斯法分类时,对于给定的输入x,通过学习到的模型计算后验概率概率,将后验概率最大的类作为x的类输出.
朴素贝叶斯法是典型的生成学习方法,生成方法由训练数据学习联合概率分布p(x,y),然后求得后验概率分布p(x|y).概率估计方法可以是极大似然估计或贝叶斯估计.
2. 优缺点:基本假设是条件独立性,由于这个假设,模型高效且易于实现,但是强假设会导致模型包含的条件概率的数量大大减少,分类的性能不一定高.
3. 参数估计的方法一般是极大似然估计或者贝叶斯估计
贝叶斯估计可以弥补极大似然估计中可能出现概率值为0 的情况,因为可能某个事件的出现次数为0.
4. 什么是无偏估计?
估计量的数学期望等于被估计参数的真实值,意义是:在多次重复下,平均数接近所估计的参数真值.
5. 协方差等相关统计学知识
协方差为了描述两变量间线性关系.
相关系数是将两变量标准化后度量线性关系.
6. 正则化?
正则化是模型选择的典型方法.在经验风险上加一个正则化项或罚项, 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大. 我的理解就是正则化是让模型规则化,本来是一个过拟合的模型,加上正则化项让它更规整,避免过拟合. 另一种典型的模型选择方法是交叉验证.
7. 不相关和独立的区别?
不相关这里指线性不相关,可能还会有其他关系
独立是指两个事件的发生概率没有关系.
8. 生成学习方法?
监督学习方法可以分为生成方法和判别方法.该模型表示了给定输入X产生输出Y的生成关系,典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型.
判别方法直接学习决策函数f(X)或者条件概率分布p(Y|X)作为预测的模型,即判别模型. 典型的判别模型包括: k近邻法,感知机,决策树,逻辑斯谛回归模型,最大熵模型,支持向量机,提升方法和条件随机场等.
生成方法的优点: a. 可以还原出联合概率分布p(X,Y),判别方法不行
b. 学习收敛速度更快
c. 当存在隐变量时,仍可以用生成方法学习,判别方法不行
判别方法的优点: a. 学习的准确率更高, 因为直接学习决策函数f(X)或者条件概率分布p(Y|X)
b. 因为直接学习决策函数f(X)或者条件概率分布p(Y|X), 可以对数据进行各种程度上的抽象,定义特征并使用特 征, 因此可以简化学习问题
参考资料:[1]https://www.cnblogs.com/lliuye/p/9178090.html
[2]统计学习方法 (李航 著)