Dataset之PTB:Penn Treebank Dataset(PTB 数据集)的简介、安装、使用方法之详细攻略

Dataset之PTB:Penn Treebank Dataset(PTB 数据集)的简介、安装、使用方法之详细攻略

目录

PTB 数据集的简介

1、数据集信息简介

2、数据信息来源

3、样本

4、更新

PTB 数据集的安装

PTB 数据集的使用方法

NLP之TF之LSTM:基于Tensorflow框架采用PTB数据集建立LSTM网络的自然语言建模


PTB 数据集的简介

Penn Treebank Dataset 数据集是一个用于自然语言处理(NLP)和计算语言学研究的标准数据集。它包含来自多种来源的文本,如新闻、书籍和文章。PTB 数据集通常用于语言模型词性标注句法分析等任务的训练和评估。

官方地址BOLT Treebank | Linguistic Data Consortium

数据集地址Linguistic Data Consortium - Linguistic Data Consortium

1、数据集信息简介

Penn Treebank宾夕法尼亚树库(PTB)项目从98,732篇故事的三年华尔街日报(WSJ)收藏中选择了2,499篇进行句法标注。这2,499篇故事已在PTB的Treebank-2(LDC95T7)和Treebank-3(LDC99T42)版本中分发。Treebank-2包括每个故事的原始文本。在一个压缩文件中提供了三个“映射”文件(pennTB_tipster_wsj_map.tar.gz)供已许可Treebank-2并提供了2,499个PTB文件名与TIPSTER中相应的WSJ DOCNO字符串之间关系的用户额外下载。

作者:Mitchell P. Marcus,Beatrice Santorini,Mary Ann Marcinkiewicz,Ann Taylor
LDC 编目号:LDC99T42
ISBN:1-58563-163-9
ISLRN:141-282-691-413-2
DOI:https://doi.org/10.35111/gq1x-j780
会员年份:1999
DCMI 类型:文本
数据来源:电话语音,新闻线,麦克风语音,转录语音,多样化
项目:TIDES,GALE
应用:分析,自然语言处理,标注
语言:英语
语言标识:eng
许可证:LDC非会员用户协议
在线文档:LDC99T42文档
许可说明:订阅会员、标准会员和非会员
引用:Marcus, Mitchell P., 等. 树库-3 LDC99T42. 网络下载. 费城:语言数据联盟,1999年。
相关作品:查看


2、数据信息来源

此版本包含以下树库-2材料:

1989年《华尔街日报》一百万字的注释树库II样式材料。
ATIS-3材料的小样本,以树库II样式注释。
布朗语料库的全标记版本。
以及以下新材料:

Switchboard标记、发语障注释和解析文本
布朗解析文本
树库括号样式旨在允许简单谓词/论元结构的提取。提供了应用此括号标注的一百多万字的文本。

3、样本

词性标注
发语障注释
发语障注释和词性标注
发语障注释,词性标注和连接的对话
句法标注
句法标注和词性标注

4、更新

出版后,发现并非所有的后缀(*.ps)文件都已转换为pdf,并且一些转换后的pdf包含错误。有关文档文件的pdf副本,请访问补充部分以获取文件列表。

截至2016年10月5日,从Treebank-2添加了252个wsj文件,这些文件之前缺失。

截至2017年2月,从Treebank-2(LDC95T7)添加了2,499个“原始”wsj文件。

在这些日期之后下载的语料库将包括这些缺失的文件。

PTB 数据集的安装

PTB 数据集的下载地址通常可以在宾夕法尼亚大学的网站上找到。由于数据集的版权和访问权限,建议在官方网站或相关研究论文中查找详细信息。一般情况下,可以通过以下链接访问宾夕法尼亚大学的语言资源中心(LDC)来获取。

地址:Treebank-3 - Linguistic Data Consortium

PTB 数据集的使用方法

使用 PTB 数据集取决于具体的研究任务。对于语言建模、词性标注和句法分析等任务,可以将数据集加载到NLP 框架中,如 TensorFlow 或 PyTorch,然后训练和评估模型。

NLP之TF之LSTM:基于Tensorflow框架采用PTB数据集建立LSTM网络的自然语言建模

https://yunyaniu.blog.csdn.net/article/details/80806512

  • 20
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值