分类写词语 计算机,基于词语权重的中文文本分类算法的研究-计算机应用技术专业论文.docx...

河北工业大学

硕士学位论文

基于词语权重的中文文本分类算法的研究

姓名:侯艳钗

申请学位级别:硕士

专业:计算机应用技术

指导教师:沈西挺

2010-12

河北工业大学硕士学位论文

基于词语权重的中文文本分类算法的研究

摘要

随着互联网的迅速发展,特别是 Internet 的普及,Web 已成为全球性的、巨大的、分 布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着 Internet 上信息 量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对 用户真正有用的信息。因此如何在浩瀚的信息资源中快速、有效地找到自己所需要的信息 以及有效地利用这些信息就成了当前研究的热点。文本分类在信息检索中起着非常重要的 作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。

论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关 键技术,包括文本分类的基本概念、文本表示模型、特征抽取、特征项权重方法以及关键 的分类算法,分别进行了研究和探索;最后在特征项权重方面,我们分析了传统特征项权 重方法的缺点,通过针对常用的特征权重计算方法 TF-IDF 的分析,提出了一种改进的权 值计算方法。该权值计算方法将 CHI 统计量公式引进到特征权值计算中,按照特征对文 本分类的辨别能力调整其在权重计算中的贡献。在特征赋权方面,提出了 TF-IDF 与 X2 统计量相结合的权值计算方法。实验证明改进的权重计算方法对分类精度有了很大的提 高。

论文最后设计和实现了基于词语权重的中文文本分类系统的总体框架,系统流程和功 能模块;应用词语权重理论,提出了一种文本分类的新方法。最后设计并验证了基于词语 权重的文本分类模型。实验结果表明基于词语权重的文本分类模型是一种比较稳定的算 法,证明了算法的有效性。

关键词:信息检索,文本分类,特征抽取,词语权重,文本分类模型

i

基于词语权重的中文文本分类算法的研究

TERM WEIGHT-BASED CHINESE TEXT CLASSIFICATION ALGORITHM

ABSTRACT

With the rapid development of the Internet, in particular the Internet popularity, number of pages soared. So how in the vast information resources quickly and efficiently find the information they need to become a research focus. Most of the content of Web pages are text messages, so how to text message a web page automatic categorization become an important research subject. Automatic text classification is an essential first step in information retrieval, it refers to the classification of a given system, according to the text content automatically determines the process of text types in order to facilitate information retrieval. Through the classification system, information can be an effective organization and management, is conducive to rapid and accurate positioning information.

This paper introduces the automatic text categorization at home and abroad of the status followed by the text automatic classification involved in key technologies, including information retrieval model, Chinese word segmentation, feature extraction, feature weighting methods and the critical classifica

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值