摘要
摘要
在机器翻译和作文自动评分领域已经有比较成熟的研究成果,但是在人工
翻译评分领域的研究还不够深入。在同为主观题的作文评分中,采用多元线性
回归方法建立文本特征和分数之间的方程。但是人工翻译评分选取的文本特征
之间关系更为复杂,如果使用作文评分中的方法去构建模型,并不能取得最好
的效果。而神经网络作为一种自适应学习模型,在处理复杂变量之间关系时会
更有优势。在此背景下,本文尝试构建汉译英人工翻译评分模型,并在此基础
上构建大学生翻译评分系统。
本文首先从语言基础、语义、连贯性、测试点四大方向提取学生译文语料中
的翻译文本特征,并对其中一些提取算法进行设计与改进。一些重要的改进包
括:(1)将潜语义分析的方法与翻译评分结合,并提出了一个基于相似译文集
的潜语义相似度提取算法。(2)通过引入连接词权重,实现一种新的基于相似
译文集的带权连接词相似值提取算法,解决了单纯连接词个数与人工评分负相
关的不合理现象。其次,本文比较了神经网络和多元线性回归,并最终选择用
BP神经网络构建人工翻译评分模型。针对BP算法收敛慢,不利于全局寻优的
特点,进一步采用粒子群算法进行优化。最后,在特征提取和模型构建的基础
上,进一步搭建大学生翻译评分系统,能有效的给学生译文打分,并能进行一
定的反馈评价。
在特征提取方面,基于译文集的连接词算法使得该特征与人工评分正相关,
引入连接词权重之后进一步将相关度提高了1%:潜语义相似度提取算法效果比
较显著,单单考虑相似度区间为0.9.1的译文集,就将相关度提高了24%。在模
型构建上,本文分别使用多元线性回归与PSO.BP神经网络两种方法进行了测
试验证。结果表明,PSO.BP神经网络能提高6%的相关度,更适宜于翻译评分
模型构建。
关键词:汉译英,自动评分,特征提取,潜语义分析,BP神经网络,粒子群算法
万方数据
摘要
万方数据
ABSTRACT
ABSTRACT
Theresearchinthefieldofhumantranslationisnot
deepenough,eventhough
thereare maturereseachintheareaofmachinetranslation
relatively evaluation(MTE)
andtheautomated of
essayscoring.Theessayscoring,anothertypesubjectiveques-
linear methodtoestablishthe betweenthetext
tion,usedmultipleregression equation
featureandthescore.Buttherelationbetweenthetextfeatureinhuman ismore
scoring
webuildthemodelinthesameas not
way writingdoes,wemay
complicated.If essay
thebestresults.Theneural an