![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
毕业设计
文章平均质量分 55
Shinetien21
这个作者很懒,什么都没留下…
展开
-
毕业设计day01--代码学习篇
JF(button_5) --> ExtractLexiconAndTra(buildDic) --> CmdMain(cmdMain)--> 1~8JF(button_1) --> ExtractLexiconAndTra(searchWord)--> CmdMain(cmdMain)-->Translation(translatedWord)--> ExtractLexicon原创 2015-02-18 11:23:08 · 732 阅读 · 0 评论 -
【毕业设计day05_2】语料库预处理_思路
语料库预处理_思路加载语言x语料库,进行预处理:将转为StringBuilder串并保存。1. 读取文件lang1-alla) [\\s\\S]+? 依次处理每个文档。b) [\\s\\S]*? 依次处理文本:i. 删除信息;ii. 删除回车换行;iii. 删除多余空格;iv. 处理特殊字符;v. 添加结果信息result: StringBuilder;vi原创 2015-03-07 13:23:36 · 930 阅读 · 0 评论 -
【毕业设计day05】精析代码
翻译_1. 词典信息加载 : docPairOfCorpus.fullcorpus.dic加载对象文件2. 从提取出的词典进行翻译: tranWord rank similarity词典提取_1. 建立词典:为对输入的2种词典分别编号,合并,a) 读取文件en-frDic ; --b) 建立联合词典; --> (set: 已排序,无重复,map: key-原创 2015-03-07 13:20:05 · 564 阅读 · 0 评论 -
【毕业设计day05_4】词性标注对象写出_思路
词性标注对象写出_思路获取词语的标注信息,并更新词语编号信息1. 获取语言一的标注信息a) 读入对象temp,加载临时文件。加载语言一的词语编号:E:\Workspaces\extractLexicon1119\workfiles\langOneWordID.dicb) 读入文件langOnePOS,加载语言一语料库文档的标注信息,utf-8编码:E:\Workspaces原创 2015-03-07 13:24:43 · 611 阅读 · 0 评论 -
【毕业设计day05_3】词性标注_思路
词性标注_思路从控制台调用TreeTagger并进行词性标注1. 从C盘遍历列表,找到TreeTagger目录,不存在则copyFolder2. 控制台命令:a) cmd: cmd /k C:\TreeTagger\bin\tag-english b) Cmd1: E:\Workspaces\extractLexicon1119\workfiles\corpus\lan原创 2015-03-07 13:24:59 · 797 阅读 · 0 评论 -
【毕业设计day05_1】建立词典_思路
建立词典_思路:1. 根据输入的种子词典DicDir和编码方式DicDirEncode,加载并处理英法词典2. 加载并处理法英词典:tmpFEDictionary :String, ArrayList> 法对英:多对1;3. 联合词典:combinedDictionary:HashMap> 新编号-旧有序编号;oneTwoDictionary/twoOneDictionary:词典源原创 2015-03-07 13:22:45 · 498 阅读 · 0 评论 -
【毕业设计day04】思路理清
词典提取_思路:1. 建立词典:a) 读取文件en-frDic ;b) 建立联合词典;c) 写出对象文件langOneWordID.dic, langTwoWordID.dic, 建立用户词典d) 写出对象文件Dictionary2. 语料库预处理a) 读取文件: lang1-all, lang2-allb) 语言x语料库内的文档处理c) 写出文件:lang1-原创 2015-03-06 09:14:48 · 638 阅读 · 0 评论 -
【毕业设计day03】疑难攻克
1. 内存不足问题:Window->preferences->java->Installed JREs->选择一个jre->edit->default VM arguments: -Xmx7g (应该至少需要-Xmx3g). 2. 控制台问题:是windows的,相当于用java执行cmd里面的命令。原创 2015-03-03 09:43:56 · 481 阅读 · 0 评论 -
【毕业设计day01】代码浅析
day01:JF(button_5) --> ExtractLexiconAndTra(buildDic) --> CmdMain(cmdMain)--> 1~8JF(button_1) --> ExtractLexiconAndTra(searchWord)--> CmdMain(cmdMain)-->Translation(translatedWord)--> Extrac原创 2015-02-27 16:27:23 · 631 阅读 · 0 评论 -
【毕业设计day02】
未完全理解,摸索中...当语料库预处理完毕后,才能进行翻译。3种对象:- 语料库:语料库信息须预处理后,被TreeTagger进行词性标注- 词典文件:词典中单词,编号并合并。- 停用词:1种功能:- 对新词进行翻译:对获取的词语进行标注,更新词语编号信息;在文档层面上,获取所有的 word-count & word-context 信息合并语料原创 2015-02-27 16:30:54 · 923 阅读 · 0 评论 -
【毕业设计_day06】语料库处理_思路
语料库处理_思路在文档层面上,获取所有的 word-count & word-context 信息 -- 从语料库中获取上下文信息;1. 以编号的形式加载停止词典:a) 1. 读入对象temp,加载停止词典词语的编号信息HashMap:langOneWordID;b) E:\Workspaces\extractLexicon1119\workfiles\langOneW原创 2015-03-10 12:54:40 · 908 阅读 · 2 评论