第1关:条件概率
任务描述
本关任务:根据本节课所学知识完成本关所设置的选择题。
相关知识
为了完成本关任务,你需要掌握条件概率。
条件概率
朴素贝叶斯分类算法是基于贝叶斯定理与特征条件独立假设的分类方法,因此想要了解朴素贝叶斯分类算法背后的算法原理,就不得不用到概率论的一些知识,首当其冲就是条件概率。接下来就开启我们的条件概率之旅吧。
什么是条件概率
概率指的是某一事件A
发生的可能性,表示为P(A)
。而条件概率指的是某一事件A
已经发生了条件下,另一事件B
发生的可能性,表示为P(B|A)
,举个例子:
今天有25%
的可能性下雨,即P(下雨)=0.25
; 今天75%
的可能性是晴天,即P(晴天)=0.75
; 如果下雨,我有75%
的可能性穿外套,即P(穿外套|下雨)=0.75
; 如果下雨,我有25%
的可能性穿T恤,即P(穿T恤|下雨)=0.25
;
从上述例子可以看出,条件概率描述的是|
右边的事件已经发生之后,左边的事件发生的可能性,而不是两个事件同时发生的可能性!
怎样计算条件概率
设A,B
是两个事件,且P(A)>0
,称P(B|A)=P(AB)/P(A)
为在事件A
发生的条件下,事件B
发生的条件概率。(其中P(AB)
表示事件A和事件B同时发生的概率)
举个例子,现在有一个表格,表格中统计了甲乙两个厂生产的产品中合格品数量、次品数量的数据。数据如下:
甲厂 | 乙厂 | 合计 | |
---|---|---|---|
合格品 | 475 | 644 | 1119 |
次品 | 25 | 56 | 81 |
合计 | 500 | 700 | 1200 |
现在想要算一下已知产品是甲厂生产的,那么产品是次品的概率是多少。这个时候其实就是在算条件概率,计算非常简单。
假设事件A
为产品是甲厂生产的,事件B
为产品是次品。则根据表中数据可知P(AB)=25/1200
,P(A)=500/1200
。则P(B|A)=P(AB)/P(A)=25/500
。
乘法定理
将条件概率的公式两边同时乘以P(A)
,就变成了乘法定理,即P(AB)=P(B|A)*P(A)
。那么乘法定理怎么用呢?举个例子:
现在有一批产品共100
件,次品有10
件,从中不放回地抽取2
次,每次取1
件。现在想要算一下第一次为次品,第二次为正品的概率。
从问题来看,这个问题问的是第一次为次品,第二次为正品这两个事件同时发生的概率。所以可以用乘法定理来解决这个问题。
假设事件A
为第一次为次品,事件B
为第二次为正品。则P(AB)=P(A)*P(B|A)=(10/100)*(90/99)=0.091
。
第1关任务——选择题
1、P(AB)表示的是事件A与事件B同时发生的概率,P(A|B)表示的是事件B已经发生的条件下,事件A发生的概率。
A、对 答案:(A)
B、错
2、从1,2,...,15中小明和小红两人各任取一个数字,现已知小明取到的数字是5的倍数,请问小明取到的数大于小红取到的数的概率是多少?
A、7/14 答案:(C)
B、8/14
C、9/14
D、10/14
第2关:贝叶斯公式
任务描述
本关任务:根据本节课所学知识完成本关所设置的选择题。
相关知识
为了完成本关任务,你需要掌握:
全概率公式;
贝叶斯公式。
全概率公式
贝叶斯公式是朴素贝叶斯分类算法的核心数学理论,在了解贝叶斯公式之前,我们需要先了解全概率公式的相关知识。
引例
小明从家到公司上班总共有三条路可以直达,如下图:
但是每条路每天拥堵的可能性不太一样,由于路的远近不同,选择每条路的概率如下表所示:
L1 | L2 | L3 |
---|---|---|
0.5 | 0.3 | 0.2 |
每天从上述三条路去公司时不堵车的概率如下表所示:
L1不堵车 | L2不堵车 | L3不堵车 |
---|---|---|
0.2 | 0.4 | 0.7 |
如果不堵车就不会迟到,现在小明想要算一算去公司上班不会迟到的概率是多少,应该怎么办呢?
其实很简单,假设事件C
为小明不迟到,事件A1
为小明选L1
这条路并且不堵车,事件A2
为小明选L2
这条路并且不堵车,事件A3
为小明选L3
这条路并且不堵车。那么很显然P(C)=P(A1)+P(A2)+P(A3)
。
那么问题来了,P(A1)
、P(A2)
和P(A3)
怎么算呢?其实只要会算P(A1)
其他的就都会算了。我们同样可以假设事件D1
为小明选择L1
路,事件E1
为不堵车。那么P(A1)=P(D1)*P(E1)
。但是在从表格中我们只知道P(D1)=0.5
,怎么办呢?
回忆一下上一关介绍的乘法定理,不难想到P(A1)=P(D1)*P(E1|D1)
。从表格中可以看出P(E1|D1)=0.2
。因此P(A1)=0.5*0.2=0.1
。
然后依葫芦画瓢可以很快算出,P(A2)=0.3*0.4=0.12
,P(A3)=0.2*0.7=0.14
。所以P(C)=0.1+0.12+0.14=0.36
。
全概率公式
当为了达到某种目的,但是达到目的有很多种方式,如果想知道通过所有方式能够达到目的的概率是多少的话,就需要用到全概率公式(上面的例子就是这种情况!)。全概率公式的定义如下:
若事件B1,B2,...,Bn两两互不相容,并且其概率和为1
。那么对于任意一个事件C
都满足:
P(C)=P(B1)P(C∣B1)+...+P(Bn)P(C∣Bn)=sumi=1nP(Bi)P(C∣Bi)
引例中小明选择哪条路去公司的概率是两两互不相容的(只能选其中一条路去公司),**并且和为1
**。所以小明不迟到的概率可以通过全概率公式来计算,而引例中的计算过程就是用的全概率公式。
贝叶斯公式
当已知引发事件发生的各种原因的概率,想要算该事件发生的概率时,我们可以用全概率公式。但如果现在反过来,已知事件已经发生了,但想要计算引发该事件的各种原因的概率时,我们就需要用到贝叶斯公式了。
贝叶斯公式定义如下,其中A表示已经发生的事件,Bi为导致事件A发生的第i个原因:
P(Bi∣A)=sumi=1nP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
贝叶斯公式看起来比较复杂,其实非常简单,分子部分是乘法定理,分母部分是全概率公式(分母等于P(A))。
如果我们对贝叶斯公式进行一个简单的数学变换(两边同时乘以分母,再两边同时除以P(Bi))。就能够得到如下公式:
P(A∣Bi)=P(Bi)P(Bi∣A)P(A)
这个公式是朴素贝叶斯分类算法的核心数学公式,至于为什么,下一关实训将会详细介绍。
第2关任务——选择题
1、对以往数据分析结果表明,当机器调整得良好时,产品的合格率为98%,而当机器发生某种故障时,产品的合格率为55%。每天早上机器开动时,机器调整得良好的概率为95%。计算已知某日早上第一件产品是合格时,机器调整得良好的概率是多少?
A、0.94 答案:(D)
B、0.95
C、0.96
D、0.97
2、一批产品共8件,其中正品6件,次品2件。现不放回地从中取产品两次,每次一件,求第二次取得正品的概率。
A、1/4 答案:(C)
B、1/2
C、3/4
D、1
第3关:朴素贝叶斯分类算法流程
任务描述
本关任务:填写python
代码,完成fit
与predict
函数,分别实现模型的训练与预测。
相关知识
为了完成本关任务,你需要掌握:
朴素贝叶斯分类算法的训练流程;
朴素贝叶斯分类算法的预测流程。
引例
在炎热的夏天你可能需要买一个大西瓜来解暑,但虽然你的挑西瓜的经验很老道,但还是会有挑错的时候。尽管如此,你可能还是更愿意相信自己经验。假设现在在你面前有一个纹路清晰,拍打西瓜后声音浑厚,按照你的经验来看这个西瓜是好瓜的概率有80
%,不是好瓜的概率有20
%。那么在这个时候你下意识会认为这个西瓜是好瓜,因为它是好瓜的概率大于不是好瓜的概率。
朴素贝叶斯分类算法的预测流程
朴素贝叶斯分类算法的预测思想和引例中挑西瓜的思想一样,会根据以往的经验计算出待预测数据分别为所有类别的概率,然后挑选其中概率最高的类别作为分类结果。
假如现在一个西瓜的数据如下表所示:
颜色 | 声音 | 纹理 | 是否为好瓜 |
---|---|---|---|
绿 | 清脆 | 清晰 | ? |
若想使用朴素贝叶斯分类算法的思想,根据这条数据中颜色
、声音
和纹理
这三个特征来推断是不是好瓜,我们需要计算出这个西瓜是好瓜的概率和不是好瓜的概率。
假设事件A1
为好瓜,事件B
为绿,事件C
为清脆,事件D
为清晰,则这个西瓜是好瓜的概率为P(A1|BCD)
。根据上一关中最后提到的公式可知:
P(A1∣BCD)=P(BCD)P(A1)P(B∣A1)P(C∣A1)P(D∣A1)
同样,假设事件A2
为好瓜,事件B
为绿,事件C
为清脆,事件D
为清晰,则这个西瓜不是好瓜的概率为P(A2|BCD)
。根据上一关中最后提到的公式可知:
P(A2∣BCD)=P(BCD)P(A2)P(B∣A2)P(C∣A2)P(D∣A2)
朴素贝叶斯分类算法的思想是取概率最大的类别作为预测结果,所以如果满足下面的式子,则认为这个西瓜是好瓜,否则就不是好瓜:
P(BCD)P(A1)P(B∣A1)P(C∣A1)P(D∣A1)>P(BCD)P(A2)P(B∣A2)P(C∣A2)P(D∣A2)
从上面的式子可以看出,P(BCD)
是多少对于判断哪个类别的概率高没有影响,所以式子可以简化成如下形式:
P(A1)P(B∣A1)P(C∣A1)P(D∣A1)>P(A2)P(B∣A2)P(C∣A2)P(D∣A2)
所以在预测时,需要知道P(A1)
,P(A2)
,P(B|A_1)
,P(C|A_1)
,P(D|A_1)
等于多少。而这些概率在训练阶段可以计算出来。
朴素贝叶斯分类算法的训练流程
训练的流程非常简单,主要是计算各种条件概率。假设现在有一组西瓜的数据,如下表所示:
编号 | 颜色 | 声音 | 纹理 | 是否为好瓜 |
---|---|---|---|---|
1 | 绿 | 清脆 | 清晰 | 是 |
2 | 黄 | 浑厚 | 模糊 | 否 |
3 | 绿 | 浑厚 | 模糊 | 是 |
4 | 绿 | 清脆 | 清晰 | 是 |
5 | 黄 | 浑厚 | 模糊 | 是 |
6 | 绿 | 清脆 | 清晰 | 否 |
从表中数据可以看出:
P(是好瓜)=4/6
,P(颜色绿|是好瓜)=3/4
,P(颜色黄|是好瓜)=1/4
,P(声音清脆|是好瓜)=1/2
,P(声音浑厚|是好瓜)=1/2
,P(纹理清晰|是好瓜)=1/2
,P(纹理模糊|是好瓜)=1/2
,P(不是好瓜)=2/6
,P(颜色绿|不是好瓜)=1/2
,P(颜色黄|是好瓜)=1/2
,P(声音清脆|不是好瓜)=1/2
,P(声音浑厚|不是好瓜)=1/2
,P(纹理清晰|不是好瓜)=1/2
,P(纹理模糊|不是好瓜)=1/2
。
当得到以上概率后,训练阶段的任务就已经完成了。我们不妨再回过头来预测一下这个西瓜是不是好瓜。
颜色 | 声音 | 纹理 | 是否为好瓜 |
---|---|---|---|
绿 | 清脆 | 清晰 | ? |
假设事件A1
为好瓜,事件B
为绿,事件C
为清脆,事件D
为清晰。则有:
P(A1)P(B∣A1)P(C∣A1)P(D∣A1)=64∗43∗21∗21=81
假设事件A2
为不是瓜,事件B
为绿,事件C
为清脆,事件D
为清晰。则有:
P(A2)P(B∣A2)P(C∣A2)P(D∣A2)=62∗21∗21∗21=241
由于81>241,所以这个西瓜是好瓜。
编程要求
根据提示,完成fit
与predict
函数,分别实现模型的训练与预测。(PS:在fit
函数中需要将预测时需要的概率保存到self.label_prob
和self.condition_prob
这两个变量中)
其中fit
函数参数解释如下:
feature
:训练集数据,类型为ndarray
;
label
:训练集标签,类型为ndarray
;
return
:无返回。
predict
函数参数解释如下:
feature
:测试数据集所有特征组成的ndarray
。(PS:feature
中有多条数据);
return
:模型预测的结果。(**PS:feature
中有多少条数据,就需要返回长度为多少的list
或者ndarry
**)。
测试说明
部分训练数据如下**(PS:数据以ndarray
的方式存储,不包含表头。其中颜色这一列用1
表示绿色,2
表示黄色;声音这一列用1
表示清脆,2
表示浑厚。纹理这一列用1
表示清晰,2
表示模糊,3
表示一般)**:
颜色 | 声音 | 纹理 | 是否为好瓜 |
---|---|---|---|
2 | 1 | 1 | 1 |
1 | 2 | 2 | 0 |
2 | 2 | 2 | 1 |
2 | 1 | 2 | 1 |
1 | 2 | 3 | 1 |
2 | 1 | 1 | 0 |
只需完成fit
与predict
函数即可,程序内部会调用您所完成的fit
函数构建模型并调用predict
函数来对数据进行预测。预测的准确率高于0.8
视为过关。
第3关任务——代码题
import numpy as np
class NaiveBayesClassifier(object):
def __init__(self):
self.label_prob = {}
self.condition_prob = {}
def fit(self, feature, label):
#********* Begin *********#
row_num = len(feature)
col_num = len(feature[0])
for c in label:
if c in self.label_prob:
self.label_prob[c] += 1
else:
self.label_prob[c] = 1
for key in self.label_prob.keys():
# 计算每种类别在数据集中出现的概率
self.label_prob[key] /= row_num
# 构建self.condition_prob中的key
self.condition_prob[key] = {}
for i in range(col_num):
self.condition_prob[key][i] = {}
for k in np.unique(feature[:, i], axis=0):
self.condition_prob[key][i][k] = 0
for i in range(len(feature)):
for j in range(len(feature[i])):
if feature[i][j] in self.condition_prob[label[i]]:
self.condition_prob[label[i]][j][feature[i][j]] += 1
else:
self.condition_prob[label[i]][j][feature[i][j]] = 1
for label_key in self.condition_prob.keys():
for k in self.condition_prob[label_key].keys():
total = 0
for v in self.condition_prob[label_key][k].values():
total += v
for kk in self.condition_prob[label_key][k].keys():
#计算每种类别确定的条件下各个特征出现的概率
self.condition_prob[label_key][k][kk] /= total
#********* End *********#
def predict(self, feature):
# ********* Begin *********#
result = []
#对每条测试数据都进行预测
for i, f in enumerate(feature):
#可能的类别的概率
prob = np.zeros(len(self.label_prob.keys()))
ii = 0
for label, label_prob in self.label_prob.items():
#计算概率
prob[ii] = label_prob
for j in range(len(feature[0])):
prob[ii] *= self.condition_prob[label][j][f[j]]
ii += 1
#取概率最大的类别作为结果
result.append(list(self.label_prob.keys())[np.argmax(prob)])
return np.array(result)
#********* End *********#
第4关:拉普拉斯平滑
任务描述
本关任务:填写python
代码,完成fit
函数,实现模型训练功能。**(PS:fit
函数中没有平滑处理的话是过不了关的哦)**
相关知识
为了完成本关任务,你需要掌握拉普拉斯平滑。
拉普拉斯平滑
假设现在有这样一批西瓜的数据,如果根据上一关中所提到的知识您应该能很快的知道应该怎样训练模型。
编号 | 颜色 | 声音 | 纹理 | 是否为好瓜 |
---|---|---|---|---|
1 | 绿 | 清脆 | 清晰 | 是 |
2 | 黄 | 浑厚 | 清晰 | 否 |
3 | 绿 | 浑厚 | 模糊 | 是 |
4 | 绿 | 清脆 | 清晰 | 是 |
5 | 黄 | 浑厚 | 模糊 | 是 |
6 | 绿 | 清脆 | 清晰 | 否 |
但是需要注意的是,在不是好瓜的数据中没有一条数据中纹理是模糊的,也就是说P(模糊|否)=0
。很显然,如果不做任何处理,那么在预测时,只要预测数据中的纹理的值是模糊,模型预测出不是好瓜的概率就一定是0
(概率是连乘的,只要有一项是0
那么结果就是0
)。这显然是不合理的,所以我们要进行平滑处理,而最常用的方法就是拉普拉斯平滑。
拉普拉斯平滑指的是,假设N
表示训练数据集总共有多少种类别,Ni
表示训练数据集中第i
列总共有多少种取值。则训练过程中在算类别的概率时分子加1
,分母加N
,算条件概率时分子加1
,分母加Ni
。
接下来用上面的西瓜数据来模拟一下,从表格知
N=2
,N1=2
,N2=2
,N3=2
。P(是好瓜)=(4+1)/(6+2)
,P(颜色绿|是好瓜)=(3+1)/(4+2)
,P(颜色黄|是好瓜)=(1+1)/(4+2)
,P(声音清脆|是好瓜)=(1+1)/(2+2)
,P(声音浑厚|是好瓜)=(1+1)/(2+2)
,P(纹理清晰|是好瓜)=(1+1)/(2+2)
,P(纹理模糊|是好瓜)=(1+1)/(2+2)
,P(不是好瓜)=(2+1)/(6+2)
,P(颜色绿|不是好瓜)=(1+1)/(2+2)
,P(颜色黄|是好瓜)=(1+1)/(2+2)
,P(声音清脆|不是好瓜)=(1+1)/(2+2)
,P(声音浑厚|不是好瓜)=(1+1)/(2+2)
,P(纹理清晰|不是好瓜)=(1+1)/(2+2)
,P(纹理模糊|不是好瓜)=(0+1)/(2+2)
。
可以看出,经过拉普拉斯平滑后,P(模糊|否)
平滑成了1/4
,使得模型更加合理。
编程要求
根据提示,完成fit
函数,实现模型的训练功能。(PS:在fit
函数中需要将预测时需要的概率保存到self.label_prob
和self.condition_prob
这两个变量中)
其中fit
函数参数解释如下:
-
feature
:训练集数据,类型为ndarray
; -
label
:训练集标签,类型为ndarray
; -
return
:无返回。
测试说明
部分训练数据如下**(PS:数据以ndarray
的方式存储,不包含表头。其中颜色这一列用1
表示绿色,2
表示黄色;声音这一列用1
表示清脆,2
表示浑厚。纹理这一列用1
表示清晰,2
表示模糊,3
表示一般)**:
颜色 | 声音 | 纹理 | 是否为好瓜 |
---|---|---|---|
2 | 1 | 1 | 1 |
1 | 2 | 2 | 0 |
2 | 2 | 2 | 1 |
2 | 1 | 2 | 1 |
1 | 2 | 3 | 1 |
2 | 1 | 2 | 0 |
只需完成fit
函数即可,程序内部会调用您所完成的fit
函数构建模型并进行预测。预测的准确率高于0.9
视为过关。
第4关任务——代码题
import numpy as np
class NaiveBayesClassifier(object):
def __init__(self):
self.label_prob = {}
self.condition_prob = {}
def fit(self, feature, label):
#********* Begin *********#
row_num = len(feature)
col_num = len(feature[0])
unique_label_count = len(set(label))
for c in label:
if c in self.label_prob:
self.label_prob[c] += 1
else:
self.label_prob[c] = 1
for key in self.label_prob.keys():
# 计算每种类别在数据集中出现的概率,拉普拉斯平滑
self.label_prob[key] += 1
self.label_prob[key] /= (unique_label_count+row_num)
# 构建self.condition_prob中的key
self.condition_prob[key] = {}
for i in range(col_num):
self.condition_prob[key][i] = {}
for k in np.unique(feature[:, i], axis=0):
self.condition_prob[key][i][k] = 1
for i in range(len(feature)):
for j in range(len(feature[i])):
if feature[i][j] in self.condition_prob[label[i]]:
self.condition_prob[label[i]][j][feature[i][j]] += 1
for label_key in self.condition_prob.keys():
for k in self.condition_prob[label_key].keys():
#拉普拉斯平滑
total = len(self.condition_prob[label_key].keys())
for v in self.condition_prob[label_key][k].values():
total += v
for kk in self.condition_prob[label_key][k].keys():
# 计算每种类别确定的条件下各个特征出现的概率
self.condition_prob[label_key][k][kk] /= total
#********* End *********#
def predict(self, feature):
result = []
# 对每条测试数据都进行预测
for i, f in enumerate(feature):
# 可能的类别的概率
prob = np.zeros(len(self.label_prob.keys()))
ii = 0
for label, label_prob in self.label_prob.items():
# 计算概率
prob[ii] = label_prob
for j in range(len(feature[0])):
prob[ii] *= self.condition_prob[label][j][f[j]]
ii += 1
# 取概率最大的类别作为结果
result.append(list(self.label_prob.keys())[np.argmax(prob)])
return np.array(result)
第5关:新闻文本主题分类
任务描述
本关任务:使用sklearn
完成新闻文本主题分类任务。
相关知识
为了完成本关任务,你需要掌握如何使用sklearn
提供的MultinomialNB
类与文本向量化。
数据简介
本关使用的是20newsgroups
数据集,20newsgroups
数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了18846
篇新闻组文档,均匀分为20
个不同主题(比如电脑硬件、中东等主题)的新闻组集合。
部分数据如下:
From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>
Subject: Pens fans reactions
Organization: Post Office, Carnegie Mellon, Pittsburgh, PA
Lines: 12
NNTP-Posting-Host: po4.andrew.cmu.edu
I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers relief with a bit of praise for the Pens. Man, they
are killing those Devils worse than I thought. Jagr just showed you why
he is much better than his regular season stats. He is also a lot
fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final
regular season game. PENS RULE!!!
其中新闻文本对应的主题标签,已经用0-19
这20
个数字表示。
文本向量化
由于数据集中每一条数据都是很长的一个字符串,所以我们需要对数据进行向量化的处理。例如,I have a apple! I have a pen!
可能需要将该字符串转换成向量如[10, 7, 0, 1, 2, 6, 22, 100, 8, 0, 1, 0]
。
sklearn
提供了实现词频向量化功能的CountVectorizer
类。想要对数据进行向量化,代码如下:
from sklearn.feature_ext\fraction.text import CountVectorizer
#实例化向量化对象
vec = CountVectorizer()
#将训练集中的新闻向量化
X_train = vec.fit_transform(X_train)
#将测试集中的新闻向量化
X_test = vec.transform(X_test)
但是仅仅通过统计词频的方式来将文本转换成向量会出现一个问题:长的文章词语出现的次数会比短的文章要多,而实际上两篇文章可能谈论的都是同一个主题。
为了解决这个问题,我们可以使用tf-idf
来构建文本向量,sklearn
中已经提供了tf-idf
的接口,示例代码如下:
from sklearn.feature_ext\fraction.text import TfidfTransformer
#实例化tf-idf对象
tfidf = TfidfTransformer()
#将训练集中的词频向量用tf-idf进行转换
X_train = tfidf.fit_transform(X_train_count_vectorizer)
#将测试集中的词频向量用tf-idf进行转换
X_test = vec.transform(X_test_count_vectorizer)
MultinomialNB
MultinomialNB
是sklearn
中多项分布数据的朴素贝叶斯算法的实现,并且是用于文本分类的经典朴素贝叶斯算法。在本关中建议使用MultinomialNB
来实现文本分类功能。
在MultinomialNB
实例化时alpha
是一个常用的参数。
alpha
: 平滑因子。当等于1
时,做的是拉普拉斯平滑;当小于1
时做的是Lidstone
平滑;当等于0
时,不做任何平滑处理。
MultinomialNB
类中的fit
函数实现了朴素贝叶斯分类算法训练模型的功能,predict
函数实现了法模型预测的功能。
其中fit
函数的参数如下:
X
:大小为[样本数量,特征数量]
的ndarry
,存放训练样本Y
:值为整型,大小为[样本数量]
的ndarray
,存放训练样本的分类标签
而predict
函数有一个向量输入:
X
:大小为[样本数量,特征数量]
的ndarry
,存放预测样本
MultinomialNB
的使用代码如下:
clf = MultinomialNB()
clf.fit(X_train, Y_train)
result = clf.predict(X_test)
编程要求
填写news_predict(train_sample, train_label, test_sample)
函数完成新闻文本主题分类任务,其中:
train_sample
:原始训练样本,类型为ndarray
;
train_label
:训练标签,类型为ndarray
;
test_sample
:原始测试样本,类型为ndarray
。
测试说明
只需返回预测结果即可,程序内部会检测您的代码,预测正确率高于0.8
视为过关。
第5关任务——代码题
# 从sklearn.feature_extraction.text里导入文本特征向量化模块
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
def news_predict(train_sample, train_label, test_sample):
# ********* Begin *********#
vec = CountVectorizer()
train_sample = vec.fit_transform(train_sample)
test_sample = vec.transform(test_sample)
tfidf = TfidfTransformer()
train_sample = tfidf.fit_transform(train_sample)
test_sample = tfidf.transform(test_sample)
mnb = MultinomialNB(alpha=0.01) # 使用默认配置初始化朴素贝叶斯
mnb.fit(train_sample, train_label) # 利用训练数据对模型参数进行估计
predict = mnb.predict(test_sample) # 对参数进行预测
return predict
# ********* End *********#