汉日词典结构的研究(终)---综合效率分析

作者:杨平平,兰燕
词典的综合效率要从时间和空间两方面进行评估。
为加快词典的查询速度,通常索引结构都是直接读到内存中进行处理的,这就要求索引文件要尽可能的小,节省内存空间。
以目前最常用的以词条为关键字的一级索引结构(暂称1号索引)为例与本文介绍的索引结构(暂称2号索引)进行比较:
我们假设日汉词典词条关键字最多字数为W,词条总数为N,每个日文字为2个字节,一个长整形数为4个字节,则:
1号索引所占内存空间为:(W×2+4+1)×N; (其中1为分隔符占用字节数)
2号索引所占内存空间为:4×N;
若N=70000, W=15, 则1号索引占用的内存空间为2号索引的8.75倍,采用双索引结构后1号索引占用的内存空间将为2号索引的17.5倍。
词典的查询速度主要取决于系统所采用的查询算法的复杂度以及访问词典文件的时间。两种索引均采用定长存储结构,其查询算法简单、快速。由于2号索引的关键字存在词典文件中,它访问词典的次数要多于1号索引,幸好目前微机技术发展迅速,词典文件的访问时间已逐渐可以忽略。
可见,从综合效率的角度分析,2号索引结构较1号索引结构要优越许多。
前面提到的“以领头字为关键字的一级索引结构”,由于日文假名数量有限,采用该种索引结构将有效地减少索引所占用的内存空间,但也由此使以同一假名为领头字的词条数量大大增加,顺序查找势必急剧减缓词汇的查找速度,从综合效率的角度分析,该种索引结构不适合日汉电子词典。
索引结构的组织建立直接影响电子词典的查找效率,有效、合理地组织词典,加快查找过程,是电子词典必须解决的问题。
       词典组织结构的关键始终是在时间和空间两个概念上寻找平衡,既要节省时间,加快查询速度,又要减少存储空间的占用量,尤其是针对日语这种极具特殊性的语言,其复杂度更进一筹。本文所采用的“隐关键字定长双索引存储机制”,其占用存储空间小,查询算法简单、快速,切合日文的特殊性,解决了其双索引查询的困难,达到了时间和空间的最佳组合状态,特别适合PDA等移动式设备上的词典工具的建立。我们希望这一索引结构对加快电子词典的应用和普及能有所帮助.
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值