撕开算法的神秘面纱
看了一大堆让人头疼的公式,真正想表达的思想,其实很简单。一切都在这个乾坤大挪移里面:
这个公式将后验概率以先验概率的形式表达,说一千道一万,做的事儿很简单,就是先假设数据X服从某种分布,但是参数未知。一般假设服从高斯分布,那么未知参数就是均值和标准差,这两个参数很容易获取,但是数据X是n维的向量,那朴素点对待吧,假想n维之间是相互独立的,皆大欢喜,每一维对应一组均值和标准差。
计算类概率P(Ci)就统计训练集中每一类的占比即可,或者干脆假设每一类出现的概率均等。
计算P(X|Ci)那就统计训练样本的每一类中X出现的频率,假如X维度很多,未出现的样本很多,那就朴素起来,认为每一维度的值相互独立,这个类条件概率就变成了每一维的类条件概率的连乘:
每一维的类条件概率就通过统计计算每一类数据的均值和标准差获得。
最后用这些每一维的类条件概率推理新数据的类后验概率,概率最大的那一类就是对应的类。
从统计学角度看多维数据,其实是忽略是各个维度之间的关联,不论是维度之间的幅值关系还是时空关系。存在的弊端,已经是解析解锁无法搞定的,既然无法完全掌控,不如退而求其次,逼近它。那么,这些弊端将发展方向都指向了像谜一样的 深度学习。