使用KNN算法的文本分类.PDF
第31 卷 第8 期 计 算 机 工 程 2005 年4 月
Vol.31 8 Computer Engineering April 2005
人工智能及识别技术 文章编号 1000 3428(2005)08 0171 02 文献标识码 A 中图分类号 TP18
使用KNN算法的文本分类
1 2 2
张 宁 贾自艳 史忠植
1. 中国科技大学研究生院计算机学部, 北京 100039 2 . 中科院计算技术研究所智能信息处理重点实验室, 北京100080
摘 要 介绍了数据挖掘的一个分枝 文本自动分类的相关技术 在对数据进行预处理的基础上 实现了K 最近邻居分类算法 并结合
实验结果对数据预处理在文本分类中的重要性进行了讨论
关键词 数据挖掘 文本分类 KNN 算法 向量空间模型
Text Categorization with KNN Algorithm
1 2 2
ZHANG Ning , JIA Ziyan , SHI Zhongzhi
1. Computer Branch, Graduate School, University of Science and Technology of China, Beijing 100039;
2. Key Lab of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080
Abstract This paper introduces a branch of data mining technology text categorization, and discusses some related key technologies of text
categorization. Based on data preprocess, it implements one algorithm, K nearest neighbor algorithm. In the end, it utilizes the experiment results t o
prove the importance of data preprocess for clarifying capability.
Key words Data mining; Text categorization; KNN algorithm; VSM
20 世纪90 年代以来 Internet 以惊人的速度发展起来 则 以便于实现 Internet 数据挖掘的智能化 离开了文本知
它容纳了海量的各种类型的原始信息 如何在浩若烟海而又 识挖掘 智能化是不能实现的 最常用的文本知识挖掘方法
纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一 是基于文档特征向量空间模型 Characteristic Vector Space
大目标 基于人工智能技术的文本分类系统能够依据文本的 Model CVSM 的 一般过程如图1 所示
语义将大量的文本自动分门别类 从而更好地帮助人们把握
文本信息
禁用词集 概念集 已分类文档库
1 文本分类简介
文本自动分类最初是应信息检索 IR 训练 理 处 预 概念 一般特征提取 集 减 征