计算机领域术语的自动获取与层次构建.pdf
第 37 卷第 2 期
Vol.37 No.2
计算机工程
Computer Engineering
月
川
lloo -Jqb
呻
盯
mm
·人工智能及识别技水· 中阳分费号: TP391 文章蝙哥哥 I 1创胁….3428(2011 )02--0172,嗣-63 文献标识码IA
计算机领域术语的自动获取与层次构建
林摞 1,嘛事捎 1,孙悄 1,2
(1.北京林业大学信息学院,北京 lα浏阳; 2. 北京航窍航夭大学计算布L学院,北京 l佣19 1)
捕 '哥:设计一种能够自动获取计算机领域术语的方案,提出3妻子规则与统计相结合的抽取方法,使用~马逊网站的计算机类阁书作为语
料库,通过分词、去停止词颁处理以及训频统计的方法提取出计算机类领域术语,并捕入到Ih ODP 构建的树巾,形成计算机领域水语的
层次给构。实验结果表明,与人工标注销果相比,使用该方法自动获取的术语有很高的准确率与召回率。
关键词:计算机领域术语;术语获取;层次结构; ODP 项目
Computer Domain Term Automatic Extraction
and Hierarchical Structure Building
Lll呼 Yuan1, CHEN Zhi嗣bol , SUN Qiao1,2
(1 ‘ School of Infonnation Science and Technology, Beijing Fores町 University, Beijing !(刷的, China;
2. School ofComputer Science and Engineering, Beihang University, Beijíng 100191, China)
(Abstract )This paper present~ a computer domain tenn automatic extraction method b附d on rules and statistics. It uses computer 胁。,k tities from
A website as corpus, data 盯'e preprlωes忧d by words splitting, stop words and special characters filtering. Tenns are extracted by a set of
rules and frequency statístics and inserted into a word tree 什om ODP 10 build the hierarchical structure. Experímental results show high precision
ωd recall of the automatically extracted results compared with manual tagged tenns
(Key words J computer domain 优nn; tenn extraction; hierarchical structure; Open Directory f汁。~ect(ODP)
DOI: 1O.3969/j.issn.1创)()-3428.2011.02.059
1 概述
随苟'向然语宵处用研究与应用的不断深入,以及计算机
业的蓬勃发展,构建计算机领域术语的需求变得越米越迫切。
计算机领域术语可以应用在信息处理技术的各个方橱,比如
文本分类、信息检索等。目前,计算机领域的术语烹要依靠
入工构建,代价十分巨大。因此,寻找一种自动化构建计算
机领域术语的万法,并能&.时地发现新领域术语的任务变得
十分霞耍。本文提出一个计算机领域术语自动获取与层次结
构的构建方案,即基于规则与统计相结合的}f法向动提取计算机
领域术语,并把在概念上具有上下级逻辑联系的术语组成树形
结构。
2 术语获取技术
2.1 术语的概念和特点
术语是一种结合紧密的固定或半固定的词或知语,它还
是一种具有很强领域特征的词语lllo 术语可以是词也可以是
短语,是在特定的科学领域,用来表达概念的称谓。术语是
科学研究、文化交流不可或缺的工具,它具有以 F特点:术
语与普通词语的以别在于术语通常表示的娃在特定领域的词
汇,只有该领域的人使用,而一般词语是在各个领域赞迫使
用;术语通常只在本领域内疏通,离开了其特定的领域,引
用率几乎为 0; 基本上术语都是名词或名词性短话。
2.2 术语族取方法
术语的获取、术语朦的建立是术语学与术语标准化工作
的苦重要内容与孚段,将为文档分类以及信息抽取任务提供有
力的依据,在机器翻译、自动索引、建1i:l司法知识瘁方面