毕业设计day01--代码学习篇

最新推荐文章于 2023-03-17 14:08:21 发布

Shinetien21

最新推荐文章于 2023-03-17 14:08:21 发布

阅读量732

点赞数

分类专栏：毕业设计文章标签：可比语料库翻译

本文链接：https://blog.csdn.net/Shinetien21/article/details/43876219

版权

毕业设计专栏收录该内容

11 篇文章 0 订阅

订阅专栏

JF（button_5） --> ExtractLexiconAndTra（buildDic） --> CmdMain（cmdMain）--> 1~8
JF（button_1） --> ExtractLexiconAndTra（searchWord）--> CmdMain（cmdMain）-->Translation（translatedWord）--> ExtractLexicon（translatMain）
progressBar: PublicInfo.count(进程信息) == 9、8 , PublicInfo.info(进度条完成后的显示的信息)

CmdMain.java
count=1，为词典中所有的单词编号，合并词典并保存
count=2，为TreeTagger预处理语料库信息
count=3，从控制台调用TreeTagger并进行词性标注
count=4，获取词语在第三部中进行的标注信息，并更新词语编号信息
count=5，在文档层面上，获取所有的 word-count & word-context 信息，应该在上面的所有过程之后进行调用
count=6，合并语料库信息
count=7，在语料库水平上提取相关的 word-count & word-context 信息，为后续的词典提取做准备
count=8，提取双语词典（完成语料预处理）
count=9，输入： args[1]:待翻译的词语，开始进行翻译

1,ExtractDictionaryInfo（splitDicForLexicalExtraction）：成功建立词典
2,ProcessCorpus（process）：语料库预处理成功
3,CommandLine（parse）：正在进行语言二语料库的词性标注
4,GetPOS（save）：词性标注对象写出成功
5,ParseCorpus
6,UnionCorpus（buildCorpusUsingFullCorpus）：合并成功!
7,BuildObjectsForExLex（saveCombinedObjectsForExLex）：准备完成，正在进行词典抽取
8,ExtractLexiconFromUnionCorpus（testCorpus）：完成词典提取！
9,Translation（translatedWord）：开始翻译

Translation.java
load：加载相关文档，词典信息加载成功

langOneIDWord（key-->value）--> transCandidateInfo(type(1: langTwoTransSetInDic.contains ;2: similarity))

Count Context 计算IDF
ExtractLexicon（loadObjects）：加载必备的数据文件
ExtractLexicon（buildIDF）：为每一个英/法单词建立起IDF信息

基本思想：
基于基本假设：
一个语言中一个词在对应到另外一种语言时，它与周围词之间的共现搭配关系仍然被保持，即：
在不同语言中一个词和其对应词所在的上下文具有相似性。源语文本的共现规律与目标文本的共现规律从根
本上来讲是一致的。
一个词的上下文通过向量(context vectors)来表示，向量值一般考虑语料库中该词与其周围词的相关度（association）
譬如词频共现信息。
通过计算两个双语词的上下文向量之间的相似性来选取最大可能的对应词汇是基于可比语料库提取双语词汇的基本方法。

研究初期：上下文向量相似计算方法提取双语词汇。TF,IDF计算方法
后续研究：上下文向量相似计算方法 + 语言学知识，单词音译（transliteration），义类词典（thesaurus）

应用：
所提取的双语词汇主要应用于充实双语词典，并应用跨语言信息检索，语料库涉及德语-英语、法语-英语、日语-英语、汉语-英语以及汉语-日语等。

翻译等价对抽取实验：
1.分词：汉语分词工具，库C1-->文件C2，英语词处理工具E1-->文件E2(英文词识别+词形分析)
2.生成文章中出现词条的词表：GIZA++工具C2-->中文词表CT1，E2-->ET1
3.词性标注：汉语分词、词性标注工具C2词性标注，E2词性标注
4.计算上下文向量：实词进行共现值计算，虚词被纳为停用词
5.计算向量的相似度：遍历C2,E2,各取一词，形成词对，对此词对中的2个词对应的两个上下文向量计算向量相似度：遍历C2，取CW1-算上下文向量CV1，对CV1中每个词aWi,根据汉英机器翻译系统个中出现的英文词与实际预料中的英文词表ET1(英文种子词汇表)比较，剔除不在ET1中的英文词，形成aWi对应的英文词集合aWEi;将aWEi与对于E2遍历时考察的当前词EW1的上下文向量中的每个英文词aEWj进行比较，若aEWj在aWEi中，则认为aWi与aEWj具有对应关系，否则没有对应关系。
当向量V的分量和向量W的分量具有对应关系时的值，...，没有对应关系时的值为0。
6.翻译等价对抽取

利用上下文种子词TF项频度*IDF值
基于可比语料的复合名词抽取过程：
1.从日语预料中抽取复合名词的上下文信息，共现词与复合名词的组合方式
2.借助现有的双语词典, 将1中提取的共现词翻译成英语, 作为线索词;
3.在英语语料中, 选定观察窗口长度为3个句子(翻译检索区), 计算线索词频率
4.抽取英语翻译，根据词类信息等在翻译检索区提取英语翻译候选词。

基于可比语料的双语术语抽取过程：
1.将A语料、B语料切分、词性标注等处理
2. 选择计算范围，建立上下文向量
3. 上下文向量相似度计算
4. 提取等价对

Shinetien21

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
毕业设计day01--代码学习篇

JF（button_5） --> ExtractLexiconAndTra（buildDic） --> CmdMain（cmdMain）--> 1~8JF（button_1） --> ExtractLexiconAndTra（searchWord）--> CmdMain（cmdMain）-->Translation（translatedWord）--> ExtractLexicon
复制链接

扫一扫

专栏目录