java knn文本分类算法_使用KNN算法的文本分类.PDF

本文介绍了基于数据挖掘的文本分类技术,特别是K最近邻(KNN)算法的实现。通过对数据预处理,实现了KNN算法,并通过实验强调了预处理在文本分类中的关键作用。关键词包括数据挖掘、文本分类、KNN算法和向量空间模型。
摘要由CSDN通过智能技术生成

使用KNN算法的文本分类.PDF

第31 卷 第8 期 计 算 机 工 程 2005 年4 月

Vol.31 8 Computer Engineering April 2005

人工智能及识别技术 文章编号 1000 3428(2005)08 0171 02 文献标识码 A 中图分类号 TP18

使用KNN算法的文本分类

1 2 2

张 宁 贾自艳 史忠植

1. 中国科技大学研究生院计算机学部, 北京 100039 2 . 中科院计算技术研究所智能信息处理重点实验室, 北京100080

摘 要 介绍了数据挖掘的一个分枝 文本自动分类的相关技术 在对数据进行预处理的基础上 实现了K 最近邻居分类算法 并结合

实验结果对数据预处理在文本分类中的重要性进行了讨论

关键词 数据挖掘 文本分类 KNN 算法 向量空间模型

Text Categorization with KNN Algorithm

1 2 2

ZHANG Ning , JIA Ziyan , SHI Zhongzhi

1. Computer Branch, Graduate School, University of Science and Technology of China, Beijing 100039;

2. Key Lab of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080

Abstract This paper introduces a branch of data mining technology text categorization, and discusses some related key technologies of text

categorization. Based on data preprocess, it implements one algorithm, K nearest neighbor algorithm. In the end, it utilizes the experiment results t o

prove the importance of data preprocess for clarifying capability.

Key words Data mining; Text categorization; KNN algorithm; VSM

20 世纪90 年代以来 Internet 以惊人的速度发展起来 则 以便于实现 Internet 数据挖掘的智能化 离开了文本知

它容纳了海量的各种类型的原始信息 如何在浩若烟海而又 识挖掘 智能化是不能实现的 最常用的文本知识挖掘方法

纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一 是基于文档特征向量空间模型 Characteristic Vector Space

大目标 基于人工智能技术的文本分类系统能够依据文本的 Model CVSM 的 一般过程如图1 所示

语义将大量的文本自动分门别类 从而更好地帮助人们把握

文本信息

禁用词集 概念集 已分类文档库

1 文本分类简介

文本自动分类最初是应信息检索 IR 训练 理 处 预 概念 一般特征提取 集 减 征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值