流程参考自https://github.com/nlpyang/PreSumm
处理过程全部在Linux
服务器实现。
1、下载PreSumm代码
git clone https://github.com/nlpyang/PreSumm.git
需要安装依赖包
pyrouge=0.1.3
pytorch-transformers=1.2.0
1、下载原数据集
CNN/DailyMail:https://cs.nyu.edu/~kcho/DMQA/
2、将下载好的数据集解压到放到一个文件夹中(row_stories)
!tar zxvf cnn_stories.tgz -C raw_stories/
!tar zxvf dailymail_stories.tgz -C raw_stories/
需要注意,将所有的*.story文件放到当前文件夹下
移动命令可参考https://blog.csdn.net/tailonh/article/details/124301984
3、下载stanford parser
wget http://nlp.stanford.edu/software/stanford-corenlp-full-2017-06-09.zip
unzip stanford-corenlp-full-2017-06-09.zip
添加环境变量
export CLASSPATH=$CLASSPATH:/path/to/PreSumm/stanford-corenlp-full-2017-06-09/stanford-corenlp-3.8.0.jar:
4、Sentence Splitting and Tokenization
大约会产生57G的数据
python preprocess.py -mode tokenize -raw_path ../raw_stories -save_path ../merged_stories_tokenized
5、转换为Json格式
python preprocess.py -mode format_to_lines -raw_path ../merged_stories_tokenized -save_path ../json_data/cnndm -n_cpus 1 -use_bert_basic_tokenizer false -map_path ../urls