贝叶斯公式
![](https://img-blog.csdnimg.cn/img_convert/1dbc2e8299c11033b64006667017cdef.png)
在A 条件成立下,B的概率等于B的概率*在B条件成立下,A的概率/A的概率,推导
假设一个学校中男生占总数的60%,女生占总数的40%。并且男生总是穿长裤,女生则一半穿长裤、一半穿裙子。
1.正向概率。随机选取一个学生,他(她)穿长裤和穿裙子的概率是多大?这就简单了,题目中已经
告诉大家男生和女生对于穿着的概率。
2.逆向概率。迎面走来一个穿长裤的学生,你只看得见他(她)穿的是否是长裤,而无法确定他
(她)的性别,你能够推断出他(她)是女生的概率有多大?
性别 | 长裤 | 裙子 |
男60% | 100% | 0% |
女40% | 50% | 50% |
假设总学生为U,穿长裤的男生的个数为:
![](https://img-blog.csdnimg.cn/img_convert/6099a60b3bfc16d5dc9d419275862b2b.png)
=U*60%*100%
穿长裤的女生个数为:
![](https://img-blog.csdnimg.cn/img_convert/d50bbf498b9db7f0fb09d05ec1976f83.png)
=U*40%*50%
第2问的问题是:穿长裤的女生的概率,首先计算穿长裤的总人数
![](https://img-blog.csdnimg.cn/img_convert/0270f7fb336c41affc32b35d03667ade.png)
穿长裤的女生的概率:
![](https://img-blog.csdnimg.cn/img_convert/040de655aae9ca8a6ddd6e483a16d303.png)
合并得:
![](https://img-blog.csdnimg.cn/img_convert/1526f5800e1b10e08b71c01abe80695f.png)
=
![](https://img-blog.csdnimg.cn/img_convert/fcf85a5307163714c2cd82215920ab30.png)
分母表示男生中穿长裤的人数和女生中穿长裤的人数的总和,就是P(Pants)
![](https://img-blog.csdnimg.cn/img_convert/bbfe90ab64acad3877020a54e417a473.png)
假设穿长裤用A表示,女生用B表示:
![](https://img-blog.csdnimg.cn/img_convert/20a53b94289f6b5dd5939792722ad220.png)
![](https://img-blog.csdnimg.cn/img_convert/7269f3b7844d2323d3aeec15ddf3174c.png)
![](https://img-blog.csdnimg.cn/img_convert/3cc9ba79681e03e897f4bb37a2823348.png)
![](https://img-blog.csdnimg.cn/img_convert/5f203b363103bff4c3ce7a32d23d8a38.png)
![](https://img-blog.csdnimg.cn/img_convert/793bdfb2159eb89599435435b757aeb3.png)
![](https://img-blog.csdnimg.cn/img_convert/80b08a6bd77cdb5f5a4b10ffd00d4ee6.png)
![](https://img-blog.csdnimg.cn/img_convert/9678f1a48e0457b92d90595df3594edb.png)
![](https://img-blog.csdnimg.cn/img_convert/0ce6403b1e69b5e0a279c27b90e58065.png)
伯努利朴素贝叶斯API
sklearn.naive_bayes.BernoulliNB
高斯朴素贝叶斯API
sklearn.naive_bayes.GuassianNB
多项式朴素贝叶斯API
sklearn.naive_bayes.MultinomialNB
![](https://img-blog.csdnimg.cn/img_convert/ddfb3474e1c190979304635450e78c85.png)
![](https://img-blog.csdnimg.cn/img_convert/7422fc126db69bd4d2829317aaacdeee.png)
实例
1、处理鸢尾花数据,为连续性数据,应使用高斯朴素贝叶斯
from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
import pandas as pd
from sklearn.model_selection import train_test_split
#读取数据
path = r'D:\python\2023\机器学习\分类data\iris.csv'
df = pd.read_csv(path)
df.columns = ['type1','type2','type3','type4','target']
#df = load_iris()
#print(df)
#取出目标值及特征值
y = df['target']
x = df.drop('target',axis=1)
print(x)
#将数据进行分为训练集及测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.25)
#特征工程
#数据建模算法
bys = GaussianNB()
bys.fit(x_train,y_train)
y_predict = bys.predict(x_test)
print('预测结果:',y_predict)
print('高斯朴素贝叶斯的正确率为:',bys.score(x_test,y_test))
![](https://img-blog.csdnimg.cn/img_convert/a2c7c1a3c12ec6e898d3a35011a36460.png)
若用多项式朴素贝叶斯
from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
import pandas as pd
from sklearn.model_selection import train_test_split
#读取数据
path = r'D:\python\2023\机器学习\分类data\iris.csv'
df = pd.read_csv(path)
df.columns = ['type1','type2','type3','type4','target']
#df = load_iris()
#print(df)
#取出目标值及特征值
y = df['target']
x = df.drop('target',axis=1)
print(x)
#将数据进行分为训练集及测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.25)
#特征工程
#数据建模算法
bys = MultinomialNB()#默认alpha=1.0
bys.fit(x_train,y_train)
y_predict = bys.predict(x_test)
print('预测结果:',y_predict)
print('多项式朴素贝叶斯的正确率为:',bys.score(x_test,y_test))
![](https://img-blog.csdnimg.cn/img_convert/2c42c59ec23a035678131155b369ec43.png)
2、多项式朴素贝叶斯处理新闻数据
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
news = fetch_20newsgroups(subset='all')
#数据分割
x_train,x_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25)
#特征抽取
tf = TfidfVectorizer()
#以训练集当中的词的列表进行每篇文章重要性统计
x_train = tf.fit_transform(x_train)
print(tf.get_feature_names())
x_test = tf.transform(x_test)
#进行多项式朴素贝叶斯预测
mlt = MultinomialNB(alpha=1.0)
print(x_train)
mlt.fit(x_train,y_train)
y_predict = mlt.predict(x_test)
print('预测文章类别是:',y_predict)
print('准确率是:',mlt.score(x_test,y_test))