白话 贝叶斯公式_【白话机器学习】算法理论+实战之朴素贝叶斯

本文用浅显易懂的语言介绍了贝叶斯原理,通过实例解析了朴素贝叶斯分类的工作流程,包括离散数据和连续数据案例。接着,讲述了在文本分类中如何运用朴素贝叶斯,特别是TF-IDF值的计算。最后,通过一个实战案例展示了如何使用多项式朴素贝叶斯进行文本分类,并比较了不同类型的朴素贝叶斯分类器的准确性。
摘要由CSDN通过智能技术生成

来自于: AI蜗牛车团队(作者:Miracle8070)

公众号: AI蜗牛车

原文链接:【白话机器学习】算法理论+实战之朴素贝叶斯​mp.weixin.qq.com

有兴趣的同学可以关注我的公众号:AI蜗牛车

1. 写在前面

如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,常见的机器学习算法:监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支持向量机,集成算法Adaboost等

无监督算法:聚类,降维,关联规则, PageRank等

为了详细的理解这些原理,曾经看过西瓜书,统计学习方法,机器学习实战等书,也听过一些机器学习的课程,但总感觉话语里比较深奥,读起来没有耐心,并且理论到处有,而实战最重要, 所以在这里想用最浅显易懂的语言写一个白话机器学习算法理论+实战系列。个人认为,理解算法背后的idea和使用,要比看懂它的数学推导更加重要。idea会让你有一个直观的感受,从而明白算法的合理性,数学推导只是将这种合理性用更加严谨的语言表达出来而已,打个比方,一个梨很甜,用数学的语言可以表述为糖分含量90%,但只有亲自咬一口,你才能真正感觉到这个梨有多甜,也才能真正理解数学上的90%的糖分究竟是怎么样的。如果这些机器学习算法是个梨,本文的首要目的就是先带领大家咬一口。另外还有下面几个目的:检验自己对算法的理解程度,对算法理论做一个小总结

能开心的学习这些算法的核心思想, 找到学习这些算法的兴趣,为深入的学习这些算法打一个基础。

每一节课的理论都会放一个实战案例,能够真正的做到学以致用,既可以锻炼编程能力,又可以加深算法理论的把握程度。

也想把之前所有的笔记和参考放在一块,方便以后查看时的方便。

**学习算法的过程,获得的不应该只有算法理论,还应该有乐趣和解决实际问题的能力!**今天是白话机器学习算法理论+实战的第五篇,朴素贝叶斯算法,这个算法最适合的场景就是文本分类任务了,常用语自然语言处理任务,但可不单单是用于文本分类,贝叶斯方法被证明是非常general且强大的推理框架,通过今天的学习,快速掌握朴素贝叶斯的计算原理和工作流程,并且运用学习到的原理和流程,做一个文本分类的任务。大纲如下:贝叶斯原理(不要畏惧不可知,要从已知推未知)

朴素贝叶斯分类的工作原理(离散数据和连续数据案例)

朴素贝叶斯分类实战(文本分类,在这里会掌握TF-IDF技术,会认识分词技术)

OK, let's go !

2. 朴素贝叶斯? 还是先从贝叶斯原理开始吧!

很多人都听说过贝叶斯原理?在哪?当然是在学概率统计的时候了,有些人可能会说,完蛋, 概率统计的知识都忘光了, 哈哈, 那也没有关系, 谁让这里是白话机器学习算法呢, 肯定是大白话的学习算法精华啊。在这之前,得需要了解一下贝叶斯原理, 放心,这里没有复杂的公式,只需要一个小例子,你就发现,不知不觉的就学到了贝叶斯原理的核心思想,对,就是这么神奇。不信? 那就接着往下看。贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。(哈哈,厉害吧,只可惜,贝叶斯看不见了)贝叶斯原理是怎么来的呢? 贝叶斯为了解决一个叫“逆向概率”问题写了一篇文章,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。这里有个词,叫做逆向概率。What is "逆向概率"?所谓“逆向概率”是相对“正向概率”而言。★ ★正向概率总知道吧, 比如,一个袋子里5个球, 3个黑球,2个白球,我随便从里面拿出一个,问,是黑球的概率?。这时候,立即答:3/5。”

哈哈,这就是正向概率了,很容易理解吧,但这种情况往往是上帝的视角,即了解了事情的全貌做的判断(事先知道了袋子里有5个球)。But, 如果我们事先只知道,袋子里不是黑球就是白球,并不知道各自有多少个,而是通过我们摸出的球的颜色,我们能判断出袋子里黑白球各自多少个来吗? 这就是逆向概率了。正是这样一个普普通通的问题,影响了接下来近 200 年的统计学理论。这是因为,贝叶斯原理与其他统计学推断方法截然不同,它是建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。好吧, 猜你现在正迷糊呢!看个简单的例子吧,让你不知不觉的就爱上贝叶斯,哦,原理:★ ★一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。

然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近视,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?”

看上面这个例子,你能算出来吗? 好像涉及到逆向推理了来。我们可能对形式化的这种贝叶斯问题不擅长,但是我们对数数形式的等价问题应该很擅长,在这里,不妨把问题换一下子:你在校园里随机游走,遇到了N个长裤的人(仍然看不清性别), 问,这N个人里面有多少个男生,多少个女生?你说,这还不简单?算出学校里有多少个穿长裤的,然后在这些人里,再算出多少女生,多少男生不就行了?哈哈,厉害,那么我们就一起算一下吧:假设,学校里面有M个人。首先,先算算,这个学校有多少男的,多少女的★ ★60%的男生,40%的女生,则男生的个数是M * P(男), 女生的个数M * P(女)。 这没问题吧?”

”那我们再算算,男生里面,穿长裤的有多少人?★ ★根据上面我们知道,男生都穿长裤,也就是只要是男的,他就穿长裤(你发现了吗?这里有个词,前提是男的,这是个什么?对,条件概率), 即P(长裤 | 男)= 100%。

那么,穿长裤的男生的个数就等于:男生的个数乘以前面的概率 = M * P(男) * P(长裤 | 男)”

”同理, 我们算一下&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值