统计机器翻译 NiuTrans 开源软件

NiuTrans是由东北大学自然语言处理实验室开发的开源统计机器翻译系统,支持基于(层次)短语的模型,使用C++编程,具有运行速度快、使用内存少的特点。最新版NiuTrans Ver0.3.0新增层次短语模型支持,并提供详细文档。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NiuTrans统计机器翻译开源系统由东北大学自然语言处理实验室开发。该系统使用C++/C编程语言进行编码,具有运行速度快、使用内存少等优点。目前NiuTrans支持基于(层次)短语的模型。

NiuTrans特性如下:

1. 在同一的框架下支持目前所有最优的统计机器翻译模型(句法系统即将推出)

2. 集中多种内置解码算法供用户选择

3. 易于使用,用户仅需简单执行几个脚本即可使用本系统

4. 使用c++语言进行开发,系统稳定且运行速度快

5. 内置简单有效n-gram语言模型

 

自从2011年7月份NiuTrans ver0.1.0推出后,得到了很多修改反馈意见。基于大家的建议,曾在去年十月份推出一个新版0.2.0,修正了一些Bugs和支持了32位OS.

目前NiuTrans Ver0.3.0已经发布,这个新版升级的主要特征:1)新支持了层次短语模型(hierarchical phrase-based model)NiuTrans.Hierarchy;2)提供了详细描述 NiuTrans.Phrase系统的文档,层次短语模型的文档准备正在进行之中,完成后随时更新。访问入口显示在东北大学自然语言处理实验室网站(http://www.nlplab.com)首页左上角。

NiuTrans开发组所有成员和实验室主任朱靖波教授非常感谢大家的关注,也欢迎大家给我们提建议,可以直接e-mail to niutrans@mail.neu.edu.cn

 

NiuTrans网址:http://www.nlplab.com/NiuPlan/NiuTrans.html

Download:http://202.118.18.77:8080/NiuTrans-open-source/

转载于:https://www.cnblogs.com/lucyjiayou/archive/2012/05/09/2491156.html

平行语料库数据库设计方案 平行语料库数据库设计主要涉及到对对应单位及其外围信息的存储方面,下面是对平 行语料库数据库中主要表的初始设计方案。 "表一:Language(语言表) " "列名 "数据类型 "说明 " "LanId "Int(10)"唯一标识符 " "LanName "Nvarchar "语言名称 " "LanMark "Int(10)"语言标识说明 " 注:为语言字典,为了对平行语料库的扩展,实现多语种的翻译。 "表二:Domain(领域表) " "列名 "数据类型 "说明 " "DomId "Int(10) "领域的唯一标识符 " "PdomId "Int(10) "父节点的ID " "DomName "Nvarchar "领域名称 " "DomDate "Datetime "领域添加时间 " "Isleaf "Bit "是否叶子节点(1-not leaf " " " "0-leaf) " "DomMark "Int(10) "领域标识说明 " 注:此表为领域信息表,实现对领域知识的自动识别,领域的树形结构的显示 "表三:ParallelDoc(平行文档表) " "列名 "数据类型 "说明 " "DocId "Int(10) "平行文档唯一标示 " "OriginDocXML"XML "源文档的XML存储 " "TargetDocXML"XML "目标文档的XML存储 " "ExtendType "XML "扩展字段 " 注:为平行文档的存储 "表四:datatype(数据来源信息类型记录表) " "DatatypeId "Int(10) "数据来源信息类型标识" "DatatypeName "Nvarchar "数据来源信息类型 " 注:此表记录着外围信息表中的数据信息来源类型,如网络、书籍、报纸等。 "表 五:PropertiesInfo(外围信息表) " "列名 "数据类型 "说明 " "DocId "Int(10) "平行文档外围信息唯一标示 " "OriginTitle "Nvarchar "源文档的标题 " "OriginAuthor "Nvarchar "源文档的作者 " "OriginPublish"datetime "源文档发行时间 " "Time " " " "DomId "Int(10) "文档的领域信息 " "OriginLanId "Int(10) "源文档的语言信息 " "OriginPublish"Nvarchar "源文档出版社 " "er " " " "TargetTitle "Nvarchar "目标文档的标题 " "TargetAuthor "Nvarchar "目标文档的作者 " "TargetPublish"datetime "目标发行时间 " "Time " " " "Intodbtime "datetime "文档入库时间 " "TargetLanId "Int(10) "目标文档的语言信息 " "TargetPublish"Nvarchar "目标文档出版社 " "er " " " "UserId "Int(10) "用户信息 " "DataTypeId "Int(10) "数据来源信息类型 " "XmlExtends "Xml "扩展字段 " 注:外围信息的存储 "表六:CorrespondCu (语料对应块记录表) " "列名 "数据类型 "说明 " "CuSn "Int(10) "对应块唯一标识符 " "DocId "Int(10) "文档唯一标识符 " "OriginPassag"Int(10) "源文语料块所在的段落 " "e " " " "OriginSenten"Int(10) "源文语料块所在的句子 " "ce " " " "OriginPositi"Int(10) "源文语料块在句子中的位置" "on " " " "OriginSrartI"Int(10) "源文语料块开始索引位置 " "ndex " " " "OriginCu "Nvarchar "源文语料块内容 " "TargetPassag"Int(10) "目标语料块所在的段落 " "e " " " "TargetSenten"Int(10) "目标语料块所在的句子 " "ce " " " "TargetPositi"Int(10) "目标语料块在句子中的位置" "on " " " "TargetSrartI"Int(10) "目标语料块开始索引位置 " "ndex " " " "TargetCu "Nvarchar "目标语料块内容 " "Xmlextends "Xml "备注字段 " 注:对应单位的存储 "表七:Origin_UnCu(源文语料保留块记录表) " "列名 "数据类型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值