第一次跑通baseline,是比较云里雾里的。
看了文件后,了解了机器翻译的发展历程:1.基于规则的机器翻译 2.基于统计的机器翻译 3.基于神经网络机器翻译 4. 发展趋势
了解了数据划分
1.训练集
2.开发集
3.测试集
对于赛事也有了一定了解
赛题数据由官方提供,有评价指标进行评分
BLUE-4:
BLEU,全称为Bilingual Evaluation Understudy(双语评估替换),是一种对生成语句进行评估的指标。
BLEU 评估指标的特点:
优点:计算速度快、计算成本低、容易理解、与具体语言无关、和人类给的评估高度相关。
缺点:不考虑语言表达(语法)上的准确性;测评精度会受常用词的干扰;短译句的测评精度有时会较高;没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定。
领悟到机器翻译其实根据算法进行循环,循环次数不同,最终翻译程度不同。
更具体的分析及原理性问题希望再努力学习。