Cross-Lingual Document Classification

最新推荐文章于 2024-09-22 07:13:11 发布

TheJayChou

最新推荐文章于 2024-09-22 07:13:11 发布

阅读量243

点赞数 1

分类专栏： text classification

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32843395/article/details/116093551

版权

text classification 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

博客探讨了Cross-Lingual Document Classification的概念，即利用在一种语言上训练的模型进行另一种语言的文本分类。提到的数据集包括Reuters RCV1/RCV2 English-to-German和MLDoc Corpus，后者是Facebook基于路透社数据创建的多语言分类资源，旨在解决不同语言间类别分布不均衡的问题。重点讨论了模型参数的迁移可能性。

摘要由CSDN通过智能技术生成

Cross-Lingual Document Classification

跨语言文档分类，指在训练数据多的语言分类任务中训练模型，用于另一种文本较少的语言分类任务。

是否可以在一种语言分类中训练gml模型中的参数（因子的参数等），再用于另一种语言分类任务？

Reuters RCV1/RCV2 English-to-German：
路透社的不同语言的新闻报道。
在这里插入图片描述
MLDoc (Multilingual Document Classification Corpus)：
多语言文档分类语料库，是涵盖英语，德语，法语，西班牙语，意大利语，俄语，日语和中文的跨语言文档分类数据集。
Facebook根据路透社语料库构建。原语料库中不同语言之间的类先验分布有显着差异，此数据集先验类别较均衡。

MLDoc Zero-Shot English-to-Chinese：
在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。