朴素贝叶斯的拓展

花絮:

       前阵子我养了一非常笨的鱼,我花了好久好久教他爬树,猜结果怎么着?他死了,死在树上了。哎,有些事情就是这么毋庸置疑——有一条鱼笨死在树上。

      几天前有人做了一个数据挖掘算法的培训,由于是泛泛而谈,我也是听了等于没听——说的都知道,不知道的也没说。不过回去的路上却对贝叶斯做了一番思考,自以为有所斩获,分享之。可谓温故而知新……

贝叶斯的成立条件——条件独立性:

      贝叶斯在应用的时候有一个非常大的掣肘:当同时使用不同的条件时,需要 这些条件特征相互独立。这一条件往往非常苛刻,很难满足。我们实际处理时,往往是无视这种相关性(不独立),假设他们独立。这当然会给我们的算法带来误差。因为我们没有办法去考虑这种相关性(到目前为止,我没见到过任何一个贝叶斯模型有认真考虑并解决这一问题)。之前在南大有听过一个NIID的讲座,是说的非独立同分布模型的重要性,同时也提到了他的复杂性。

      说回贝叶斯算法吧,我一直都认为这个贝叶斯公式:

                          p(a|b)=p(b|a)*p(a)/p(b);

                         两边同乘p(b): p(a|b)p(b)=p(b|a)*p(a);也就是 p(ab)=p(ba)。

        根本不该取个名字,就好像我们把A*B=B*A命名为“XXX公式”一样让我觉得别扭——这结论不明摆着嘛,还取个名字来恶心大家。而贝叶斯算法则是以这样一个“显而易见”的结论为基础,是数学基础最坚固的算法(没有之一,即使不能代表所有人的观点,至少代表我的观点)。而这一算法中最大的掣肘就是条件独立性,这是一个非常苛刻的条件。

路漫漫其修远兮,吾将上下而求索:

        在我只是对概率论略懂一点皮毛的时候(虽然现在依然如此),我还没有听说过贝叶斯公式(算法),但是我却不只一次的使用过贝叶斯算法,这也是我为什么说贝叶斯公式“显而易见”的一个原因了。而这个“条件独立性”苛求也是从此就一直困扰着我,有时候我用“没有更好的办法”、“只能做到这一步”来找借口忽视这一问题,有时候又尝试在第二个特征中把与第一个条件相关的部分剥离出去,从而构建出一个新的满足独立性的条件,但是怎么剥离呢?有时候又想:或许只需要清晰的衡量这种条件相互之间的相关性即可,然后根据不同的条件单独作用的结果 ,结合条件之间的相互影响从而得到最终真相。但是这一相关性计算的数学依据又该是什么?得到之后又应该怎么运用从而得到最终真相……没有人能够告诉我!!!

        这一次我又回到了这一个问题面前:各个条件不独立,怎么办?一个以概率论为基石的算法只能止步于此吗?当这次想到“独立”时,联想到的却是另外一个很有意思的词“正交”。“正交”被定义为两个向量的内积为零,一个来自于线性代数或者矩阵论的概念。至于这两者是否可以归为同一概念或者源自同一概念,我既不知道,也暂不关心。我感觉两者之间很有可能存在这样一个关系(这里以文本为例):在所有的文本中,两个词a和b的特征向量(每篇文章出现的次数列表)有两种特殊的对立的极端关系——共线与正交。而概率论的角度出现词a与出现词b也存在两种特殊对立的情况——相关与独立。共线与相关(这里指完全的同时发生或不发生)是显而易见的一对:如果两个词的特征向量共线,则必定每篇文章这两个词都是同时发生或者不发生,共线与相关描述的是同一件事情。那么剩下一对就是“正交”和“独立”:他们之间有关系吗?它俩之间什么关系我也不完全明白,也解释不清。不过这并不影响我为在条件不独立时的贝叶斯找出路,故暂且不管。

        说道矩阵和正交,我想到的就是奇异值分解和正交化,但是我用奇异值分解来解释。对一组文本进行奇异值分解之后,各个重构的新特征(或者隐语义)的特征向量是相互正交的,也就是任何一个向量在其他特征向量上的投影都是0向量。到这里我就一厢情愿的认为:由于特征向量正交,因此任意两个隐含语义在一篇文章中发生的多少是相互独立的【这一点虽然从数学上证明是我所不会的,但是找一些具体情境来尝试一下确是每个人都能做的】。至此“条件的独立性”不会再困扰贝叶斯算法,因为任何一个不独立的问题都可以通过“正交化”或者“svd”来转化为一个条件独立的问题。但是这一切都建立在 “两个特征的向量正交”是这两个事件相互独立的充分条件的假设上,这是一个真命题吗?一方面可以从数学进行推导(证伪或者证明),另一方面可以通过实例来进行验证。

        接下来我会认为上述假设是一个真命题,来用新贝叶斯对power 8算法挑战赛第五期的文本分类进行分类,由于之前我做过一个版本,对于测试集正确率为 85%左右,故希望有兴趣尝试的朋友也使用同一个数据集,到时候分享交流有一个相同的基础。

物理学界的强迫症:

        我不是一个好学生,本科虽然学的是物理,但是却没有念出个物理博士,然后为国家和全人类做贡献。不过物理界的一些小事情确是知道的,比如其中有个叫“大统一理论”的概念,这可以用两个一来形容:一个理论体系解释一切物理现象。虽然近些年进展很多,但是还不够。我就在想,如果一个物理学家来研究数学,会不会也来个“大统一理论”:一个理论体系包含一切的数学。虽然目前还不知道答案,但是“大统一理论”,为什么不可以呢?概率论与矩阵论为什么不能融合起来呢?话说量子力学的一个学派现在已经凋零,他们的名字是“矩阵力学”,而现在的主流用的则是“概率波”的方式来解释世界,有人证明了“矩阵力学”于现在我们在大学所学的量子力学完全等价,只不过前者计算比较复杂。概率的问题也许就是可以在矩阵论中找答案的。

©️2020 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值