![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器翻译
文章平均质量分 68
gongjing2014
这个作者很懒,什么都没留下…
展开
-
统计机器翻译中的几篇经典文献
统计机器翻译中的几篇经典文献 MIT人工智能实验室的《如何做研究》建议阅读本领域中最本质的几篇论文:“如果你对AI的某个子领域感兴趣,向该领域的高年级研究生请教本领域最重要的十篇论文是什么”。阅读经典论文,对于了解感兴趣的领域非常重要。而关于统计机器翻译,最经典的几篇论文又是什么呢?以下是我根据自己的经验总结的几篇经典论文,如有遗漏,欢迎补充。1.A Statistical Ap原创 2014-08-03 20:39:28 · 1386 阅读 · 1 评论 -
机器翻译需要的软件 自然语言处理专业所涉及的软件
、第一个开源的统计机器翻译工具包——Egypt如前所述,Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块:Whittle:语料库预处理模块;GIZA:用于从句子对齐的双语语料库中训练词语对齐;Cairo:词语对齐的可视化工具Decoder:解码器,即用来执行具体的翻译过程模块,这一模块没有开原创 2014-08-03 20:36:27 · 2800 阅读 · 0 评论 -
数据挖掘(Data Mining)
数据挖掘(Data Mining) 是有组织有目的地收集数据,通过分析数据使之成为信息,从而从大量数据中寻找潜在规律以形成规则或知识的技术。原创 2014-08-05 21:42:18 · 819 阅读 · 0 评论 -
AdaBoost算法
AdaBoostAdaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,原创 2014-08-06 18:21:08 · 504 阅读 · 0 评论 -
Apriori算法
Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。其中,Apriori算法具有这样一条性质:原创 2014-08-06 17:12:02 · 771 阅读 · 0 评论 -
GIZA++实现了IBM模型1~5 IBM Model 1详解
GIZA++实现了IBM模型1~5的所有代码,在生成源语言与目标语言之间翻译概率的同时,也产生相应的副产品——“词对齐”。这个副产品成为各种统计机器翻译系统的基石,直到今天,大部分系统仍然首先使用GIZA++对大量平行语料进行词对齐。在阿拉伯语、中文等语言与印欧语系语言的对齐中错误率仍然很高。特别是中文,错误率常常达到30%以上。这里主要对GIZA++开源代码中的IBM model1实现部原创 2014-08-07 21:09:21 · 8947 阅读 · 1 评论 -
条件随机场(CRF)
条件随机场(CRF)原创 2014-08-08 17:25:36 · 1266 阅读 · 0 评论 -
WordNet 简介
Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的, 一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense: 1. (39) print, publish -- (put int原创 2014-08-10 18:45:13 · 4729 阅读 · 1 评论 -
Python 新手推荐书25本免费的Python电子书
对于 Python 新手应该从哪本开始Think StatsDive Into PythonA Byte Of PythonThink ComplexityDive Into Python 3DJANGO TUTORIALBuilding Skills In OOPPyramid For HumansFlask MicroframeworkBuild原创 2014-08-11 22:16:38 · 1444 阅读 · 0 评论