Chinese English News Magazine Parallel Text数据集介绍,官网编号LDC2005T10

Chinese English News Magazine Parallel Text 数据集 是一个包含中文和英文新闻杂志文章的平行语料库。这个数据集主要用于自然语言处理(NLP)领域的研究,特别是机器翻译、跨语言信息检索、双语词典编纂以及多语言文本生成等任务。

数据集特点

  1. 平行性:数据集中的每篇中文文章都对应一篇英文文章,这两篇文章的内容是相似的或者相同的,但语言表达不同。这种平行性使得该数据集非常适合用于训练和监督机器翻译等跨语言NLP任务。
  2. 新闻杂志领域:数据集的内容主要来自于新闻和杂志文章,这些文章通常具有正式、客观和专业的语言风格,涵盖政治、经济、文化、社会等多个领域。因此,该数据集对于研究新闻和杂志领域的跨语言NLP任务非常有价值。
  3. 大规模性:数据集通常包含大量的文章对,从几千对到数万对不等,具体规模取决于数据集的构建方式和来源。这种大规模性使得该数据集能够支持复杂的NLP模型训练和评估。

应用场景

  1. 机器翻译:该数据集是训练机器翻译模型的重要资源之一。通过使用这个数据集,研究人员可以训练出能够准确翻译中文和英文新闻杂志文章的机器翻译模型。
  2. 跨语言信息检索:在跨语言信息检索任务中,该数据集可以用于构建双语词典、训练语言模型和检索模型等。通过利用数据集中的平行文章对,可以实现中文和英文新闻杂志文章的跨语言检索。
  3. 双语词典编纂:研究人员可以利用该数据集来编纂双语词典,特别是针对新闻和杂志领域的专业词汇和术语。通过对比和分析数据集中的文章对,可以提取出准确的翻译对并编纂成词典。
  4. 多语言文本生成:该数据集还可以用于训练多语言文本生成模型,如基于神经网络的文本摘要生成、文本改写等任务。通过训练这些模型,可以实现从中文新闻杂志文章自动生成英文摘要或改写文本的功能。

 获取方法:

方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网

方法2:关注公众号,回复Chinese English News Magazine Parallel TextLDC语料小助手icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

 

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of more than 1 million news articles. News articles have been gathered from more than 2000 news sources by ComeToMyHead in more than 1 year of activity. ComeToMyHead is an academic news search engine which has been running since July, 2004. The dataset is provided by the academic comunity for research purposes in data mining (clustering, classification, etc), information retrieval (ranking, search, etc), xml, data compression, data streaming, and any other non-commercial activity. For more information, please refer to the link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html . The AG's news topic classification dataset is constructed by Xiang Zhang (xiang.zhang@nyu.edu) from the dataset above. It is used as a text classification benchmark in the following paper: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015). DESCRIPTION The AG's news topic classification dataset is constructed by choosing 4 largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and testing 7,600. The file classes.txt contains a list of classes corresponding to each label. The files train.csv and test.csv contain all the training samples as comma-sparated values. There are 3 columns in them, corresponding to class index (1 to 4), title and description. The title and description are escaped using double quotes ("), and any internal double quote is escaped by 2 double quotes (""). New lines are escaped by a backslash followed with an "n" character, that is "\n".
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值