翻译_
1. 词典信息加载 : docPairOfCorpus.fullcorpus.dic加载对象文件
2. 从提取出的词典进行翻译:
tranWord rank similarity
词典提取_
1. 建立词典:为对输入的2种词典分别编号,合并,
a) 读取文件en-frDic ; --<String, Integer>
b) 建立联合词典; --<Integer, HashSet<Integer>> (set: 已排序,无重复,map: key-value对key排序)
c) 写出对象文件langOneWordID.dic, langTwoWordID.dic, 建立用户词典--<种子词典>
d) 写出对象文件Dictionary
2. 语料库预处理
a) 读取文件: lang1-all, lang2-all
b) 语言x语料库内的文档处理
c) 写出文件:lang1-utf8, lang2-utf8
3. 词性标注: 语言x的词性标注
4. 词性标注对象写出
a) 加载对象文件:langOneWordID.dic, langTwoWordID.dic
b) 加载语言x语料库文档的标注信息
i. 读取文件:lang1-utf8.pos, lang2-utf8.pos
ii. 切分后的文档数目:lang1-9950, lang2-9989
c) 写出对象文件:
i. allLangOneWords, allLangTwoWords
ii. langOneWordID, langTwoWordID
iii. posOfLangOneDocs, posOfLangTwoDocs
5. 语料库处理
a) 加载停止词典
b) 加载对象文件:langOneWordID, langTwoWordID
i. 读取文件:enStopword,frStopword
ii. 语言x停止词典大小:505,338
c) 加载对象文件: posOfLangOneDocs, posOfLangTwoDocs
d) 获取所有词语的词频信息,Lang code=x
e) 写出对象文件:
i. langOneSentCountForDocs, langTwoSentCountForDocs
ii. langOneWordCountForDocs, langTwoWordCountForDocs
f) 在文档层次开始获取单词的上下文信息,根据所有的标注对象,Lang = x
6. 合并
a) 初始化文档信息
b) 加载对象文件: langOneWordCountForDocs, langTwoWordCountForDocs
c) 语言x的文档数量:
d) 加载对象文件: langOneSentCountForDocs, langTwoSentCountForDocs
e) 写出对象文件: docPairOfCorpus.fullcorpus
7. 词典抽取准备
a) 加载对象文件:
b) 语言x的文档数量:
c) 加载对象文件:
i. langOneSentCountForDocs, langTwoSentCountForDocs
ii. langOneWordCountForDocs, langTwoWordCountForDocs
iii. docPairOfCorpus.fullcorpus
d) 语言x语料库的文档数量:
e) 加载对象文件:Dictionary
f) 根据文档信息建立语料库的词频以及上下文信息...
i. 写出对象文件:
1. langOneWordCountForExLex-docPairOfCorpus.fullcorpus
2. langTwoWordCountForExLex-docPairOfCorpus.fullcorpus
ii. 写出对象文件:
1. langOneWordContextForExLex-docPairOfCorpus.fullcorpus
2. langTwoWordContextForExLex-docPairOfCorpus.fullcorpus
8. 词典提取
a) 加载对象文件:
i. 第一步:
1. langOneWordCountForExLex-docPairOfCorpus.fullcorpus
2. langTwoWordCountForExLex-docPairOfCorpus.fullcorpus
ii. 第二步:
1. langOneWordContextForExLex-docPairOfCorpus.fullcorpus
2. langTwoWordContextForExLex-docPairOfCorpus.fullcorpus
iii. Dictionary
iv. langOneWordID, langTwoWordID
b) 开始计算IDF
c) 写出对象文件:docPairOfCorpus.fullcorpus.dic (最终保存的词典路径dicName)