同样是基于概率论的模型下,generalized regression等都是基于P(y|x)的概率分布给出的模型,generative learning 是根据p(x|y)给出的模型。
Assumption
1. p(x|y) ~ distribution
2. p(y) ~ distribution
步骤
1. p(x|y) ~ f(inta) inta是向量,是最少能够描述相应概率分布的集合的向量
2. p(y) ~ f'(fai) fai同上
3. 利用最大似然法利用数据对上诉两类参数进行训练,得到p(x|y) p(y)
4. 利用p(y|x) = p(x|y) * p(y) / p(x) 其中p(x) = sigma(p(x|y)) for all y得到h(x)
拉普拉斯平滑
针对分类器,尤其是自然语言处理的部分
为了不出现0/0的现象,也为了能够更好的对数据集中没有出现过的样本进行评估,可以采用对每个类别加1,即将某个特殊情况出现设为2,不出现设为1。而不是正常的1和0.
利用生成算法可以得到naive bayes(不相关假设),Gaussian Discriminant analysis model(Multivariant Gaussian distribution) 等