计算机领域相关属术语,计算机领域术语的自动获取与层次构建.pdf

计算机领域术语的自动获取与层次构建.pdf

第 37 卷第 2 期

Vol.37 No.2

计算机工程

Computer Engineering

lloo -Jqb

mm

·人工智能及识别技水· 中阳分费号: TP391 文章蝙哥哥 I 1创胁….3428(2011 )02--0172,嗣-63 文献标识码IA

计算机领域术语的自动获取与层次构建

林摞 1,嘛事捎 1,孙悄 1,2

(1.北京林业大学信息学院,北京 lα浏阳; 2. 北京航窍航夭大学计算布L学院,北京 l佣19 1)

捕 '哥:设计一种能够自动获取计算机领域术语的方案,提出3妻子规则与统计相结合的抽取方法,使用~马逊网站的计算机类阁书作为语

料库,通过分词、去停止词颁处理以及训频统计的方法提取出计算机类领域术语,并捕入到Ih ODP 构建的树巾,形成计算机领域水语的

层次给构。实验结果表明,与人工标注销果相比,使用该方法自动获取的术语有很高的准确率与召回率。

关键词:计算机领域术语;术语获取;层次结构; ODP 项目

Computer Domain Term Automatic Extraction

and Hierarchical Structure Building

Lll呼 Yuan1, CHEN Zhi嗣bol , SUN Qiao1,2

(1 ‘ School of Infonnation Science and Technology, Beijing Fores町 University, Beijing !(刷的, China;

2. School ofComputer Science and Engineering, Beihang University, Beijíng 100191, China)

(Abstract )This paper present~ a computer domain tenn automatic extraction method b附d on rules and statistics. It uses computer 胁。,k tities from

A website as corpus, data 盯'e preprlωes忧d by words splitting, stop words and special characters filtering. Tenns are extracted by a set of

rules and frequency statístics and inserted into a word tree 什om ODP 10 build the hierarchical structure. Experímental results show high precision

ωd recall of the automatically extracted results compared with manual tagged tenns

(Key words J computer domain 优nn; tenn extraction; hierarchical structure; Open Directory f汁。~ect(ODP)

DOI: 1O.3969/j.issn.1创)()-3428.2011.02.059

1 概述

随苟'向然语宵处用研究与应用的不断深入,以及计算机

业的蓬勃发展,构建计算机领域术语的需求变得越米越迫切。

计算机领域术语可以应用在信息处理技术的各个方橱,比如

文本分类、信息检索等。目前,计算机领域的术语烹要依靠

入工构建,代价十分巨大。因此,寻找一种自动化构建计算

机领域术语的万法,并能&.时地发现新领域术语的任务变得

十分霞耍。本文提出一个计算机领域术语自动获取与层次结

构的构建方案,即基于规则与统计相结合的}f法向动提取计算机

领域术语,并把在概念上具有上下级逻辑联系的术语组成树形

结构。

2 术语获取技术

2.1 术语的概念和特点

术语是一种结合紧密的固定或半固定的词或知语,它还

是一种具有很强领域特征的词语lllo 术语可以是词也可以是

短语,是在特定的科学领域,用来表达概念的称谓。术语是

科学研究、文化交流不可或缺的工具,它具有以 F特点:术

语与普通词语的以别在于术语通常表示的娃在特定领域的词

汇,只有该领域的人使用,而一般词语是在各个领域赞迫使

用;术语通常只在本领域内疏通,离开了其特定的领域,引

用率几乎为 0; 基本上术语都是名词或名词性短话。

2.2 术语族取方法

术语的获取、术语朦的建立是术语学与术语标准化工作

的苦重要内容与孚段,将为文档分类以及信息抽取任务提供有

力的依据,在机器翻译、自动索引、建1i:l司法知识瘁方面

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值