贝叶斯
数据小斑马
浙大硕士毕业,互联网数据分析师,喜欢深入业务,也喜欢挖掘技术,希望和大家可以多多交流
展开
-
贝叶斯③——Python实现贝叶斯文本分类(伯努利&多项式模型对比)
虽然sklearn能直接调用贝叶斯分类,但是若能用Python代码敲出来,那也是非常有成就感的一件事,而且能进一步加深对算法过程的理解~一、算法流程及函数解释① loadData():导入分类样本,如果样本是文档,先用jieba进行分词② vecabulary():用集合生成词典(set|set会生成并集且自动删除重复元素)③ Word2Vetorm()&Word2Vetor_m(...原创 2019-06-25 22:25:20 · 5001 阅读 · 0 评论 -
贝叶斯④——Sklean新闻分类(CountVectorizer&TfidfTransformer&TfidfVectorizer)
一、数据集介绍20 newsgroups数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset,分文两部分:训练集和测试集,通常用来做文本分类。sklearn提供了该数据的接口:sklearn.datasets.fetch_20newsgroups二、数据集调用from sklearn.datasets import fetch_20n...原创 2019-06-26 21:30:21 · 2993 阅读 · 6 评论 -
贝叶斯⑤——搜狗新闻分类实战(jieba + TF-IDF + 贝叶斯)
分类过程:1、导入文件并用jieba分2、随机抽取训练和测试样本3、建立tf-idf词频权重矩阵4、朴素贝叶斯分类(采用多项式模型)数据集下载选取了搜狗新闻下财经,体育、教育等九大类别共90篇文章,本博文将使用朴素贝叶斯进行分类实战数据集下载:https://pan.baidu.com/s/1RvhuRVKbIYowoItlyfqMTA,密码:h5rf一、读取文件并用jieba分词...原创 2019-06-26 22:51:38 · 4018 阅读 · 9 评论 -
贝叶斯⑥——银行借贷模型(贝叶斯与决策树对比)
之前在决策树系列中写了一篇博客,是利用决策树建立了一个银行借贷模型,鉴于都是分类,今天就来对比下贝叶斯和决策树的分类效果。一、数据集下载:https://pan.baidu.com/s/1AtFKXSMYdD_G3M5UhTC1-w 提取码: oygj二、字段介绍① name_id: 姓名② profession: 职业,1-企业工作者,2-个体经营户,3-自由工作者,4-事业单位,5...原创 2019-06-27 08:56:38 · 3864 阅读 · 5 评论 -
贝叶斯①——贝叶斯原理篇(联合概率&条件概率&贝叶斯定理&拉普拉斯平滑)
贝叶斯分类是一类以贝叶斯定理为基础的分类算法的总称,其中基于特征之间相互独立的朴素贝叶斯是最简单,但效果却非常好的一种分类算法。本文整理了贝叶斯算法的基本原理,希望能够对大家有所帮助~~一、贝叶斯定理设想一个问题:班里有30个男生,20个女生,有3个男生留长头发,有15个女生留长头发,现在有一个人留长头发,是男生的可能性有大?解答过程:P(长发)=(3+15)/(30+20)=18/50=...原创 2019-06-24 21:56:19 · 5094 阅读 · 0 评论 -
贝叶斯②——贝叶斯3种分类模型及Sklearn使用(高斯&多项式&伯努利)
一、高斯模型大家在学习高等数学时,应该学过高斯分布,也就是正态分布,是一种连续型变量的概率分布。简单来说,高斯分布就是当频率直方图的区间变得特别小时的拟合曲线,像座小山峰,其中两端的特别小,越往中间越高。现实生活中有很多现象均服从高斯分布,比如年龄,收入,身高,体重等,大部分都处于中等水平,特别少和特别多的比例都会比较低。高斯概率分布是由均值μ和标准差σ唯一确定的,如下图所示在贝叶斯分类...原创 2019-06-24 23:03:09 · 9975 阅读 · 2 评论