基于python文本分类的研究_基于朴素贝叶斯的中文文本分类及Python实现

摘要:

当前,随着计算机不断普及以及互联网的快速发展,在这个新科技知识不断涌现和拥有空前规模信息量的"信息爆炸时代";信息来源渠道极广,传播速度极快,浩如烟海的信息鱼龙混杂,在短时间内能从中获取有用的信息成为人们迫切的需求.为了满足人们的需要,应运而生了文本数据挖掘中的中文文本分类方法,它是将统计方法与机器学习方法结合应用于文本分类中.中文文本分类是根据文本内容的主题词等属性特征将其划分到用户根据需求定义的相应类别中,一般是通过输入文本的特征向量,得到输出结果文本分类类别.本文首先介绍文本分类的研究背景,国内外研究现状以及这种方法实际应用的价值,然后介绍了中文文本分类的理论分析流程以及朴素贝叶斯分类器和逻辑回归分类器的理论思想.实验阶段选取"搜狗语料库"下5个类别的新闻数据按照理论流程用Python的集成环境anaconda进行编程操作.先对数据集进行分词和删除停用词处理,然后将TF-IDF与N-Gram结合进行特征降维处理,先后构造朴素贝斯分类器和逻辑回归分类器进行中文文本分类,为使得分类器性能指标中的精确率,召回率等能够更加精确一点,使用了交叉验证方法,最后还对分类器的最优参数进行了寻找.经过对比发现朴素贝叶斯分类器的分类效果更好一些.

展开

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值