【文本分类】基于改进TF-IDF特征的中文文本分类系统

最新推荐文章于 2023-03-16 22:18:41 发布

征途黯然.

最新推荐文章于 2023-03-16 22:18:41 发布

阅读量1.6k

点赞数

分类专栏： # 文本分类文章标签： TFIDF 文本分类相似度

原创博客归本人所有，禁止任何人、组织、公司转载或采集！

本文链接：https://blog.csdn.net/qq_43592352/article/details/121404421

版权

文本分类专栏收录该内容

58 篇文章 26 订阅

订阅专栏

摘要：改进TFIDF，提出相似度因子，提高了文本分类准确率。
参考文献：[1]但唐朋,许天成,张姝涵.基于改进TF-IDF特征的中文文本分类系统[J].计算机与数字工程,2020,48(03):556-560.

😮 最近看了许多有关机器学习的文本分类改进，有一部分论文写的非常差劲，文不知所以，论文中的公式站不住脚，根本无法代码实现，一度使我怀疑是不是自己出了问题。现在已经往基于深度学习的文本分类上转了。

一、引言

采用 one-hot模型进行文本向量化操作，并利用TF-IDF策略进行向量维度的权重计算。其后对传统TF-IDF策略进行改进并联合基于SVM模型机器学习算法完成自动化文本分类系统的设计。

二、基础算法

2.1、TF-IDF算法【词频-逆文档频】

可以参考上一篇博客【文本分类】基于类信息的TF-IDF权重分析与改进。

2.2、改进算法

传统的TF-IDF算法忽略了相似词对文本分类的影响。[例如，经过训练得到特征词"自然语言处理"对标签"文本分类"有很大贡献度,那么"NLP"作为与"自然语言处理"在某种关系R下的相似词，也应该对标签"文本分类"有很大贡献度]。

论文提出了对于两个特征词x、y，计算它们的相似度的方法：
在这里插入图片描述

其中x、y的shape为(1,n)，n为数据集中文本数量。x[i]的含义是特征词x在第i篇文档的频数。

得到每个特征之间的相似度关系之后，计算相似度因子：
在这里插入图片描述

其中，P表示特征词t在某一个文本d中的频数，Q表示在文本d中与特征词t相似的各个特征的频数和，U是文本d中所有特征的频数和。

最终，改进的TFIDF的公式为：
在这里插入图片描述

三、代码实验

3.1、实验思路

改进TFIDF算法中存在的参数为：【特征维数，相似度大小】

通过调整实验参数，来观察改进TFIDF算法与普通TFIDF算法文本分类准确率之差。

3.2、数据集

数据来源于 https://github.com/cystanford/text_classification 。数据集共包含四个类别，分别为“女性”，“体育”，“文学”，“校园”，原始数据集已经划分了测试集和训练集，并给出了停用词文档。

3.3、实验结果

5折交叉检验：

请添加图片描述

请添加图片描述

获取本项目的源代码

如果需要本项目的源代码，请扫描关注我的公众号，回复“论文源码”即可。
在这里插入图片描述

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

征途黯然.

CSDN认证博客专家 CSDN认证企业博客

码龄6年

Java领域优质创作者

327: 原创

517: 周排名

485: 总排名

158万+: 访问

: 等级

2万+: 积分

6万+: 粉丝

3535: 获赞

2084: 评论

8328: 收藏

私信

关注

热门文章

分类专栏

最新评论

【大数据】MapReduce的“内存增强版”——Spark
正在走向自律: I'm impressed by this article about 【大数据】MapReduce的“内存增强版”——Spark, and it has given me a clearer understanding.
【大数据】MapReduce的“内存增强版”——Spark
帅次: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导
【大数据】Hadoop里的“MySQL”——Hive，干货满满
技术无疆: 优质好文，能体会到博主的用心良苦，兼顾实用性和可操作性，神奇夜光杯衷心感谢博主的分享，期待博主持续带来更多佳文！
【大数据】MapReduce的“内存增强版”——Spark
程序员-杨胡广: 博主的博文写得真是太精彩了！每一篇都充满了独特的思考和深邃的见解，仿佛引领我们进入了一个全新的领域. 👍🏻俺的文章也不错哟，java Python领域都有
【大数据】深入浅出Hadoop，干货满满
Unity打怪升级: 博主的文章真的太赞了！文章内容通俗易懂，大大提高了我对这个话题的理解。每次都能学到很多新知识，感谢博主的用心分享。期待更多精彩的内容！博主的干货文章一直都是我学习的首选，加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

征途黯然. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。