java knn文本分类算法_使用KNN算法的文本分类.PDF

最新推荐文章于 2021-02-26 03:17:27 发布

拉勾教育

最新推荐文章于 2021-02-26 03:17:27 发布

阅读量358

点赞数

文章标签： java knn文本分类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33264203/article/details/114536695

版权

本文介绍了基于数据挖掘的文本分类技术，特别是K最近邻（KNN）算法的实现。通过对数据预处理，实现了KNN算法，并通过实验强调了预处理在文本分类中的关键作用。关键词包括数据挖掘、文本分类、KNN算法和向量空间模型。

摘要由CSDN通过智能技术生成

使用KNN算法的文本分类.PDF

第31 卷第8 期计算机工程 2005 年4 月

Vol.31 8 Computer Engineering April 2005

人工智能及识别技术文章编号 1000 3428(2005)08 0171 02 文献标识码 A 中图分类号 TP18

使用KNN算法的文本分类

1 2 2

张宁贾自艳史忠植

1. 中国科技大学研究生院计算机学部, 北京 100039 2 . 中科院计算技术研究所智能信息处理重点实验室, 北京100080

摘要介绍了数据挖掘的一个分枝文本自动分类的相关技术在对数据进行预处理的基础上实现了K 最近邻居分类算法并结合

实验结果对数据预处理在文本分类中的重要性进行了讨论

关键词数据挖掘文本分类 KNN 算法向量空间模型

Text Categorization with KNN Algorithm

1 2 2

ZHANG Ning , JIA Ziyan , SHI Zhongzhi

1. Computer Branch, Graduate School, University of Science and Technology of China, Beijing 100039;

2. Key Lab of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080

Abstract This paper introduces a branch of data mining technology text categorization, and discusses some related key technologies of text

categorization. Based on data preprocess, it implements one algorithm, K nearest neighbor algorithm. In the end, it utilizes the experiment results t o

prove the importance of data preprocess for clarifying capability.

Key words Data mining; Text categorization; KNN algorithm; VSM

20 世纪90 年代以来 Internet 以惊人的速度发展起来则以便于实现 Internet 数据挖掘的智能化离开了文本知

它容纳了海量的各种类型的原始信息如何在浩若烟海而又识挖掘智能化是不能实现的最常用的文本知识挖掘方法

纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一是基于文档特征向量空间模型 Characteristic Vector Space

大目标基于人工智能技术的文本分类系统能够依据文本的 Model CVSM 的一般过程如图1 所示

语义将大量的文本自动分门别类从而更好地帮助人们把握

文本信息

禁用词集概念集已分类文档库

1 文本分类简介

文本自动分类最初是应信息检索 IR 训练理处预概念一般特征提取集减征

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。