计算机科学技术名词查询,基于知网的词语聚类算法的评价方法设计与实现-计算机科学与技术专业论文.docx...

Classified Index: TP391.1 U.D.C: 621.3

Dissertation for the Master Degree of Engineering

DESIGN AND IMPLEMENTATION OF HOWNET BASED WORD CLUSTERING ALGORITHM EVALUATION METHOD

Candidate:

Wang Lei

Supervisor:

Associate Prof. Chen Qingcai

Academic Degree Applied for:

Master of Engineering

Speciality:

Computer Science and Technology

Affiliation:

Shenzhen Graduate School

Date of Defence:

December, 2007

Degree-Conferring-Institution:

Harbin Institute of Technology

哈尔滨工业大学工学硕士学位论文

哈尔滨工业大学工学硕士学位论文

-I-

-I-

摘要

在自然语言处理的研究中,词语聚类算法是被广泛研究的课题。它在自 然语言处理各个应用中均扮演十分重要的角色。词聚类算法在文本信息检 索,机器翻译,语音识别以及自然语言理解等相关领域都有广泛的应用。 然而在词聚类算法的词聚类效果评价上,目前的词语聚类算法评价方法还 存在着许多的不足。

目前,词语聚类算法的评价方法主要有人工评价和机器自动评价两种 方法。人工评价费时费力,而且评价的结果往往存在很大的个人主观性, 容易产生偏差;而机器评价主要是在空间向量模型和统计模型的基础上使 用欧式距离或余弦角的方法来对词聚类结果进行评价,而没有从语义层次 上考虑词语之间的语义关系,这导致评价结果的不理想。

本课题研究的目的在于在知网语义体系的基础上建立语义模型,并将 基于此语义模型的词关联度计算方法引入到词语聚类算法的评价方法中, 在语义层面上对得到的词聚类结果进行评价,分析它们的聚类效果,进而 判断出各个词聚类算法的聚类效果的优劣性。

本文主要研究内容有以下几个方面:

(1)本文采用了语义信息的量化模型,用词 矢量来表示词语的语义信 息。并且从语料库中选出高频的特征词作为待聚类词集合,并构造出待聚 类词集的词矢量矩阵。

(2) 分别使用基于 SOM,K-means,Fuzzy-C-Means 和 ART2 的四个词 聚类算法对待聚类词集合进行自动聚类,得到四个不同的聚类结果。

(3) 在知网的语义模型的基础上,将基于知网的词关联度计算方法引入 到词聚类算法的聚类结果评价上,对得到的词聚类结果进行相对客观正确 的评价。

(4)在基于知网的词聚类算法评价方法的原 理上设计与实现词聚类算 法的评价系统。

(5) 对词聚类算法的评价结果进行分析和比较,验证本评价系统的有效 性和准确性,并且判断出各词个聚类算法在词聚类效果上的优劣程度。

关键词 词语聚类;评价;词矢量;知网

-II-

-II-

Abstract

The words clustering algorithm is a subject of extensive research in natural language processing field. Words clustering algorithms are widely applied in text information retrieval, machine translation, speech recognition and natural language understanding, etc. However, the current evaluation methods of words clustering algorithm still have some deficiencies.

At present, there are mainly two evaluation methods of word clustering algorithms: manually evaluation method and automatic machine evaluation method. Manually evaluation wastes time, and the results are often biased by personal subjectivity; machine evaluation method uses continental distance or cosine angle to evalu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值