【毕业设计day05】精析代码

翻译_

1. 词典信息加载 : docPairOfCorpus.fullcorpus.dic加载对象文件

2. 从提取出的词典进行翻译

  tranWord  rank  similarity

词典提取_

1. 建立词典为对输入的2种词典分别编号,合并,

a) 读取文件en-frDic ;    --<String, Integer>

b) 建立联合词典;  --<Integer, HashSet<Integer>> (set: 已排序,无重复,map: key-value对key排序)

c) 写出对象文件langOneWordID.dic, langTwoWordID.dic, 建立用户词典--<种子词典>

d) 写出对象文件Dictionary

2. 语料库预处理

a) 读取文件: lang1-all, lang2-all

b) 语言x语料库内的文档处理

c) 写出文件:lang1-utf8, lang2-utf8

3. 词性标注:  语言x的词性标注

4. 词性标注对象写出

a) 加载对象文件:langOneWordID.dic, langTwoWordID.dic

b) 加载语言x语料库文档的标注信息

i. 读取文件:lang1-utf8.pos, lang2-utf8.pos

ii. 切分后的文档数目:lang1-9950, lang2-9989

c) 写出对象文件:

i.     allLangOneWords,  allLangTwoWords

ii.     langOneWordID, langTwoWordID

iii. posOfLangOneDocs, posOfLangTwoDocs

 

5. 语料库处理

a) 加载停止词典

b) 加载对象文件:langOneWordID, langTwoWordID

i. 读取文件:enStopword,frStopword

ii. 语言x停止词典大小:505,338

c) 加载对象文件: posOfLangOneDocs, posOfLangTwoDocs

d) 获取所有词语的词频信息,Lang code=x

e) 写出对象文件:

i. langOneSentCountForDocs, langTwoSentCountForDocs

ii. langOneWordCountForDocs, langTwoWordCountForDocs

f) 在文档层次开始获取单词的上下文信息,根据所有的标注对象,Lang = x

6. 合并

a) 初始化文档信息

b) 加载对象文件: langOneWordCountForDocs, langTwoWordCountForDocs

c) 语言x的文档数量:

d) 加载对象文件: langOneSentCountForDocs, langTwoSentCountForDocs

e) 写出对象文件: docPairOfCorpus.fullcorpus

7. 词典准备

a) 加载对象文件:

b) 语言x的文档数量:

c) 加载对象文件

i. langOneSentCountForDocs, langTwoSentCountForDocs

ii. langOneWordCountForDocs, langTwoWordCountForDocs

iii.  docPairOfCorpus.fullcorpus

d) 语言x语料库的文档数量:

e) 加载对象文件:Dictionary

f) 根据文档信息建立语料库的词频以及上下文信息...

i. 写出对象文件: 

1. langOneWordCountForExLex-docPairOfCorpus.fullcorpus

2. langTwoWordCountForExLex-docPairOfCorpus.fullcorpus

ii. 写出对象文件:

1. langOneWordContextForExLex-docPairOfCorpus.fullcorpus

2. langTwoWordContextForExLex-docPairOfCorpus.fullcorpus

8. 词典提取

a) 加载对象文件:

i. 第一步:

1. langOneWordCountForExLex-docPairOfCorpus.fullcorpus

2. langTwoWordCountForExLex-docPairOfCorpus.fullcorpus

ii. 第二步:

1. langOneWordContextForExLex-docPairOfCorpus.fullcorpus

2. langTwoWordContextForExLex-docPairOfCorpus.fullcorpus

iii. Dictionary

iv.     langOneWordID, langTwoWordID

 

b) 开始计算IDF

c) 写出对象文件:docPairOfCorpus.fullcorpus.dic (最终保存的词典路径dicName

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值