预处理CNN/DailyMail数据集_cnn datalymail-CSDN博客

本文链接：https://blog.csdn.net/tailonh/article/details/124293447

流程参考自https://github.com/nlpyang/PreSumm
处理过程全部在Linux服务器实现。
1、下载PreSumm代码
git clone https://github.com/nlpyang/PreSumm.git
需要安装依赖包
pyrouge=0.1.3
pytorch-transformers=1.2.0

1、下载原数据集
CNN/DailyMail：https://cs.nyu.edu/~kcho/DMQA/

2、将下载好的数据集解压到放到一个文件夹中(row_stories)
!tar zxvf cnn_stories.tgz -C raw_stories/
!tar zxvf dailymail_stories.tgz -C raw_stories/
需要注意，将所有的*.story文件放到当前文件夹下
移动命令可参考https://blog.csdn.net/tailonh/article/details/124301984

3、下载stanford parser
wget http://nlp.stanford.edu/software/stanford-corenlp-full-2017-06-09.zip
unzip stanford-corenlp-full-2017-06-09.zip
添加环境变量
export CLASSPATH=$CLASSPATH:/path/to/PreSumm/stanford-corenlp-full-2017-06-09/stanford-corenlp-3.8.0.jar:

4、Sentence Splitting and Tokenization
大约会产生57G的数据

python preprocess.py -mode tokenize -raw_path ../raw_stories -save_path ../merged_stories_tokenized

5、转换为Json格式

python preprocess.py -mode format_to_lines -raw_path ../merged_stories_tokenized -save_path ../json_data/cnndm -n_cpus 1 -use_bert_basic_tokenizer false -map_path ../urls