【cs224n-16】Low Resource Machine Translation

最新推荐文章于 2023-11-11 00:30:28 发布

VIP文章 FB1024

最新推荐文章于 2023-11-11 00:30:28 发布

阅读量440

点赞数

分类专栏： CS224N

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011613991/article/details/107300239

版权

神经机器翻译（NMT）的成功往往依赖于大量高质量的双语语料作为训练数据。如果是蒙古语、尼泊尔语这些小语种，无法提供足够多的双语数据，更极端的现实情况是，有些语言几乎没有任何双语预料，这种情况下NMT就无能为力了。

松散定义:当并行句子数量在10,000或更少时，可以认为语言对资源不足。注:现代NMT系统现在有数亿个参数!

挑战:

数据: 来源数据、评估数据集

建模：不清晰的学习范式、领域适应、模型泛化能力

Why Low Resource MT Is Interesting?

它是关于用较少标记的数据进行学习。
它是关于建模结构化输出和组合学习。
这确实是一个需要解决的问题

数据收集的挑战

非常昂贵和缓慢。
很难产生高质量的翻译

监督式学习

半监督学习

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【cs224n-16】Low Resource Machine Translation

神经机器翻译（NMT）的成功往往依赖于大量高质量的双语语料作为训练数据。如果是蒙古语、尼泊尔语这些小语种，无法提供足够多的双语数据，更极端的现实情况是，有些语言几乎没有任何双语预料，这种情况下NMT就无能为力了。松散定义:当并行句子数量在10,000或更少时，可以认为语言对资源不足。注:现代NMT系统现在有数亿个参数! 挑战: 数据: 来源数据、评估数据集建模：不清晰的学习范式、领域适应、模型泛化能力 W...
复制链接

扫一扫

专栏目录

FB1024 CSDN认证博客专家 CSDN认证企业博客

码龄11年

88: 原创

11万+: 周排名

217万+: 总排名

6万+: 访问

: 等级

734: 积分

15: 粉丝

39: 获赞

18: 评论

163: 收藏

私信

关注

热门文章

分类专栏

深度学习 4篇
CS224N 17篇
编程语言 12篇
Android 12篇
并行计算 14篇
Linux 5篇
大数据 9篇
爬虫 2篇
机器学习 6篇
自然语言处理 7篇

最新评论

ONNX 加速模型推理
Rayking1433465: 这么做，好像没有考虑到sentence-transformers中的Siamese？
ONNX 加速模型推理
Rayking1433465: 这么做，好像没有考虑到sentence-transformers中的Siamese？
异常检测&动态阈值
weixin_44434758: 博主您好，我想问一下绝对中位差中的k的取值会对结果有什么影响吗？还是说是一个经验值？
CUDA-aware MPI
Re-Miracle: 我也是false
MPI实现矩阵相乘
weixin_44495043: 附件来

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。