信息检索——NB算法的训练及分类过程实现

实验目的: 通过实验,使学生掌握多项式NB文本分类方法。
实验内容: 文本分类是信息检索系统的关键技术,多项式NB文本分类算法是有监督的基于概率的学习方法,优势是速度快,精确率很高。本实验需要编程实现这个训练和应用NB分类器的算法。

例子:

在这里插入图片描述
1.估计朴素贝叶斯分类器的参数
2.对测试文档进行分类
参数估计:
在这里插入图片描述
(上述计算中的分母分别是 (8 + 6) 和 (3 + 6),这是因为textc 和 ,的大小分别是8和3,词汇表大小是6)

分类:
在这里插入图片描述因此, 分类器将测试文档分到c = China类,这是因为d5中起正向作用的CHINESE出现3次的权重高于起反向作用的 JAPAN和TOKYO的权重之和。

实验要求:
输入:训练集的属于类的文档和不属于类的文档,以及文档的内容;测试文档的内容。
输出:测试文档的属于类和不属于类的结果
编程语言:python
朴素贝叶斯训练过程伪代码朴素贝叶斯测试过程伪代码

def getdata():
    data={
   }
    k={
   "#lof#":0}
    l=[]
    while 1:
        t=input("请输入文本:").split()
        cl=input("请输入该文本的类别:"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值