构建英汉机器翻译项目


  机器翻译是个非常复杂的问题,其应用价值也非常的,但是 根据在网络上查找到的资料,也许SMT将是MT的救命稻草。但是我们的问题不是统计学能够简单完成的,我觉得机器翻译的解决方法必然是通过机器学习来解决。虽然说我们人学习语言的过程中充满了创造,但不可否认,这个过程的基础和很大比例来源于对已知语言的模仿。Alice的成功给了我们很大的启发,就是如果想建立起一个解决所有问题的方案,那么可能会失败但是建立一个局部的、近似的解决问题的方法,是可行的。 只要我们有足够的语言模式,就可以逐渐的来逼近可靠的结果。

  比较一下对于我个人和身边的人的需要,英汉翻译的需求大于汉英翻译。看到很多的中英机器翻译系统都是双向,只是我觉得英汉翻译和汉英翻译是区别很大的2个问题,只要能够做好一个,就已经很难。

  下面 我们来假定构建一个英汉的机器翻译系统:

   对英语的词法和句法的分析是必须的,相对而言 英语研究在这个方面远比汉语成熟。
   使用 OpenNLP 和 snowball 就可以来解决

   然后对于词的处理 也许需要使用 WordNet 很多词都是相关的

   然后需要一个 词对应的 英-汉词典  实际的词对应 双向应该都不能有问题
   这个工作现在看来必须自己来做  不过 要想容易的话 还是有迹可寻

   最基础的准备里面 要有一个英汉双语对齐的语料库 

   痛苦的是我们还没有开始研究算法之前,基础资源的准备就已经耗费了大量的精力。
   也许我们应该以更加开放的精神来投入机器翻译领域  因为最后可能的所有人都会是这项研究的受益者

   具体系统的规则相同 使用aiml类似的结构 alice的成功 aiml是个很重要的原因
   有理由相信 这个优点 我们可以用在其它的方面

   下面存在2个问题
     1  通过机器学习和统计的方法类聚出语法模版
     2  语法模版应用过程中的根据语境选词

   我想 我们可以这样的假设,就是我们认为我们的系统是独立的,它的最小的处理单元是句子,没有必要对句子间的语境进行处理。
   因为对于人来说,单独的一句和 混合在其它句子的相同一句  翻译的时候 很多时候也是不一致的  但是也许那只是一个更加婉转的说法。
   我们也可以去信任每个说话的人  他们可以保证自己所说的每个句子在单独存在的时候保持独立和正确的意思。
   因此,我们的系统只是针对句子进行处理

   英语语法的变化并不是无限的   变化更多的在于不同语境的选词问题
   一个词的意义其实是在多个语境中被人抽取出来的 不同的语境有不同的意思  而我们的词典对词义的规定 并不是一个完美的方法
   所以我们可以通过一个类似的NN系统 来把信息还原到语境中去 选择出语境近似的释义

   动手来实现这个系统 是一个挑战性的工作  好在我并不是一个只说不做的人   整个系统已经有了雏形  还没有完全跑通 完成了主要模块的70%工作 不过 模块们是可以单独使用的 。

   这个项目在基础开发完成以后会作为一个开源的系统   (不要担心这个 真的会开源  本人在开源领域已经开放过2个项目 还算有些信誉)

   今天写下这些 总结一下 如果有人能够看到  也许你帮助我们  我们也会来帮助你
   
                                                                    宁夏大学  张冬 2007.1.6
 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值