预处理CNN/DailyMail数据集

流程参考自https://github.com/nlpyang/PreSumm
处理过程全部在Linux服务器实现。
1、下载PreSumm代码
git clone https://github.com/nlpyang/PreSumm.git
需要安装依赖包
pyrouge=0.1.3
pytorch-transformers=1.2.0

1、下载原数据集
CNN/DailyMail:https://cs.nyu.edu/~kcho/DMQA/

2、将下载好的数据集解压到放到一个文件夹中(row_stories)
!tar zxvf cnn_stories.tgz -C raw_stories/
!tar zxvf dailymail_stories.tgz -C raw_stories/
需要注意,将所有的*.story文件放到当前文件夹下
移动命令可参考https://blog.csdn.net/tailonh/article/details/124301984

3、下载stanford parser
wget http://nlp.stanford.edu/software/stanford-corenlp-full-2017-06-09.zip
unzip stanford-corenlp-full-2017-06-09.zip
添加环境变量
export CLASSPATH=$CLASSPATH:/path/to/PreSumm/stanford-corenlp-full-2017-06-09/stanford-corenlp-3.8.0.jar:

4、Sentence Splitting and Tokenization
大约会产生57G的数据

python preprocess.py -mode tokenize -raw_path ../raw_stories -save_path ../merged_stories_tokenized

5、转换为Json格式

python preprocess.py -mode format_to_lines -raw_path ../merged_stories_tokenized -save_path ../json_data/cnndm -n_cpus 1 -use_bert_basic_tokenizer false -map_path ../urls
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值