文件夹结构
New York Times 文件夹里一共有9个文件,其中有4个文件夹,5个文件,内容如下
文件种类 | 文件个数 | 文件内容 |
---|---|---|
文件夹 | 4个 | data(数据), docs(文档), dtd(定义xml文件), tools(java使用工具) |
py文件 | 1个 | 创建一个表, 索引时间 |
.html文件 | 1个 | 说明 |
.txt文件 | 1个 | 说明数据集的范围,缺省13个文件 |
.sh执行文件 | 1个 | 解压缩文件 |
.db文件 | 1个 | 数据库的一个表,由上面.py文件创建 |
New York Time 语料库的描述:
语料库
- 1.8 million的文章
- 超过650k手动编写的文章摘要
- 超过1.5 million 的人工标记的文章,标记包括 人物,地点,组织,标题