数据挖掘算法之深入朴素贝叶斯分类

写在前面的话:  我现在大四,毕业设计是做一个基于大数据的用户画像研究分析。所以开始学习数据挖掘的相关技术。这是我学习的一个新技术领域,学习难度比我以往学过的所有技术都难。虽然现在在一家公司实习,但是工作还是挺忙的,经常要加班,无论工作多忙,还是决定要写一个专栏,这个专栏就写一些数据挖掘算法、数据结构、算法设计和分析的相关文章。通过写博文来督促自己不断学习。以前对于数学没有多大的兴趣爱好,从小
摘要由CSDN通过智能技术生成

写在前面的话:

  我现在大四,毕业设计是做一个基于大数据的用户画像研究分析。所以开始学习数据挖掘的相关技术。这是我学习的一个新技术领域,学习难度比我以往学过的所有技术都难。虽然现在在一家公司实习,但是工作还是挺忙的,经常要加班,无论工作多忙,还是决定要写一个专栏,这个专栏就写一些数据挖掘算法、数据结构、算法设计和分析的相关文章。通过写博文来督促自己不断学习。以前对于数学没有多大的兴趣爱好,从小到大,学数学也是为了考试能考个好的成绩,学过的很多数学知识,并没有深刻的感受到它的用途,不用也就慢慢遗忘,但自从我看了数学之美这本书和开始学习数据挖掘后,使我对数学有了很大的兴趣。数学源于生活,用于生活。数据挖掘中涉及到很多统计学、线性代数、微积分等相关知识,而我的很多数学知识都已经还给我以前的老师了,所以现在只能慢慢一点一点捡起来。要感谢网上有很多作者写出的好的文章,让我受益匪浅,也算是站在他们的肩膀上学习。减少了我的学习困难,而我今天开始写的专栏里的一系列文章,很多例子都是借鉴于他们文章中的例子。想了想,这个专栏名称就叫<<算法大杂烩>>,以后我会把我工作中用到的、自己学习的新算法、以及回顾梳理的每一个算法的学习笔记和心得都更新到这个专栏里。写的博文难免会有写得不好的地方,欢迎大家指正,我也喜欢和有共同学习爱好的人一起学习交流。

不一定每天都更会更新,但是肯定会坚持写下去。

今天写的第一篇博文,是关于朴素贝叶斯分类的。几年前,我就听说过这个算法,只是稍微了解一点点,仅仅停留在只知道它是通过贝叶斯定理来分类的。写这篇文章之前,我看了很多的相关知识,包括书籍和网上的一些优秀的博文。哈哈,到现在也应该算对于这个算法入门了吧。后面的参考链接中会附上一些参考的文章地址。

朴素贝叶斯分类


引子

  朴素贝叶斯分类是一种常用的分类算法,他根据研究对象的某些特征,来推断出该研究对象属于该研究领域的哪个类别。

数学是解决我们生活中产生的各种问题的。所以,数学源于生活,生活中也处处体现数学,我们编程,不过是把人能够理解的数学知识转换成计算机能够理解的形式来解决实际问题。拿朴素贝叶斯分类来说,其实生活中比比皆是,举个例子:

我们在大街上看到一个人,猜测他属于哪个职业。这就是一种分类,你是根据什么来判断的。可能是根据这个人的穿着打扮,言行举止。

穿着打扮:胡子拉碴、头发乱七八糟,背着大的电脑包
言行举止:双眼无神(估计在想哪个bug的解决办法),黑眼圈重,头发没洗。

所以,我大概能看出这个人职业是程序员(开个玩笑,这只是程序员自黑而已,我身边的程序员都不是这样的,当然也包括我)。

其实穿着打扮、言行举止就是人的特征属性

我们要对某个对象分类,必须根据他的特征属性来判断。


概述

要了解贝叶斯分类,必须了解贝叶斯定理,贝叶斯定理离不开条件概率

条件概率定义:
事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。

根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。


P(A|B)=P(A∩B)/P(B)

     


因此,


P(A∩B)=P(A|B)P(B)

    

所以,


P(A|B)P(B)=P(B|A)P(A)

  • 15
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值