中文文本分类

哈工大社会计算与信息检索研究中心  中文文本分类介绍

概况介绍

中文文本自动分类是自然语言处理的经典研究方向,有着极其重要的应用价值。文本分类的核心技术为构建一个具有高准确度和较高速度的分类器,高效率的分类器才能具有实用性。目前构建分类器的方法有贝叶斯分类算法、K紧邻(K-NN)、决策树、线性最小二乘法估计(LLSF)、支持向量机(SVM)等,其中K-NN和SVM是基于向量空间模型(VSM)的最好的分类器,我们采用的SVM更是具有其他算法所不具备的优点,通过实验也证明了SVM能获得更好的分类性能。分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题。自动分类在信息检索、图书馆管理和网页新闻体系划分都有重要应用。


体系结构



文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。

我们可以把分类过程分成2个部分:训练过程和分类过程:

中文文本分类_体系结构

在2004年举行的863分类评测中,我们系统在最短时间内最快完成测试,表现出极高的效率和稳定性,在10多家参加单位中处于中游水平。历经2年不断改进,在14类新闻分类体系中准确率达到80%,基本达到实用水平。

系统功能

1)较快的训练和测试过程。

2)根据不同用户需求,可以便捷地更改分类体系。

3)在Windows和Linux下都可以运行。

4)支持单一文本即时分类和成批量文本同时分类。

技术特点

我们使用的方法基于类别特征域的文本分类特征选择方法。该方法首先利用“组合特征抽取”的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。

性能指标

在2004年举行的863分类评测中,我们系统在最短时间内最快完成测试,表现出很高的效率和稳定性,准确率和招回率在10多家参加评测单位中名次位于中游。历经2年不断改进,在11个类别的新闻分类体系中准确率达到80%以上,基本达到实用水平。

目前我们的系统对常用的11个类别进行测试的具体指标:

类别准确率招回率F值
财经0.7255260.7922080.757402
房产0.9110900.8719120.891071
汽车0.9003720.9253590.912695
旅游0.6771740.6922220.684615
体育0.9609800.9557760.958371
教育0.8586240.8443000.851402
生活0.6706590.6400000.654971
科技0.8214630.8230260.822243
游戏0.9307320.9362120.933464
娱乐0.9136900.9219220.917788
军事0.9273100.8912180.908906
微平均值0.8452380.8449230.844811

应用领域

1、信息检索

2、新闻即时分类

3、词义消歧

4、图书馆管理系统


哈工大信息检索研究室推广技术  技术列表

中文分词与词性标注

中文命名实体识别

中文词义消歧

中文依存句法分析

中文自动校对

中文文本分类

单文档自动文摘

中文多文档自动文摘

主页替换自动发现

大规模文本/网页去重系统

中英文例句检索系统

中文信息模糊匹配

简繁/繁简转换

汉语文本自动标注拼音

基于FAQ自动客服系统

中文全文检索系统

英文拼写检查

机构信息抽取系统




  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值