HanLP里使用DAT存取字典的方法

CoreBiGramTableDictionary.java和CoreDictionary.java结构思路


词典里文件的格式:wordA@wordB     frequency
CoreBiGramTableDictionary.java文件用一个TreeMap<(int)wordA, TreeMap<(int)wordB, (int)frequency>>来读取词典。用一个名为pair的int型数组来存储TreeMap<(int)wordB, (int)frequency>。因为一个wordA可能对应有多个wordB,所以用一个名为start的int型数组来记录wordA后面有多少个wordB(start[i] ~~~ start[i+1])。
wordA和wordB的int数值从DAT的查询中来。

词典里文件的格式:word     nature1     frequency1     nature2     frequency2 ......
CoreDictionary.java里用一个Attribute的内部类来保存词典里的每一列中word后的那些概率。
Attribute属性:Nature nature[];
                        int         frequency[];
                        int          totalFrequency;
接着用一个TreeMap<String, Attribute>来存储一列。
怎么build这个map到DAT里?
build(map<String, Attribute>) --> build(Set<String, Attribute>) --> List<String> keyList, List<Attribute> valueList --> build(keyList, valueList) --> DAT里的Attribute[] v := valueList, 最终到了原有的build()。

OK, finished.




转载于:https://www.cnblogs.com/StevenL/p/6818441.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值