自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 progressive-generation-master代码记录【下载处理数据】(主函数,划分训练集,验证集,测试集)

输出train_texts 的数量,将train_texts以二进制编码存放入,output_dir路径,命名为train.pickle,'wb'表示以二进制写打开,如果文件不存在则创建存在则覆盖。剩下的验证集与测试集为相同的原理,只有开头的区间不同,分别为0-20000,20000-30000,30000-40000.将故事行中的变量以两个分行符分割赋给text,下为分割样式,可以看到其实是将故事中的每句话分割开来,方便后续处理。上面的语法即:以sep作为分隔符,将seq所有的元素合并成一个新的字符串。

2022-09-02 18:58:29 310 1

原创 progressive-generation-master代码记录【下载处理数据】(添加缺失字符)

检测每个句子是否缺失符号,如果是上述的字符,将后面补充上.符号。

2022-08-29 15:53:03 74

原创 progressive-generation-master代码记录【下载处理数据】(内容处理)

【 nonempty_lines = [_add_missing_period(line) for line in nonempty_lines],_add_missing_period为一个增加缺失的符号的函数,具体在下个详解】使用while true循环,将element等于lines的左端元素,设定终止条件为字符元素是否为@highlight,因为摘要以@highlight开头,只提取故事。line 是raw_story中的行,使用split以换行符分隔(raw_story为上一模块中的输出)...

2022-08-29 15:44:46 137

原创 progressive-generation-master代码记录【下载处理数据】(定义CNNDataset类)

此处的path是本地下载数据集的路径,填写后使用os.path.exists进行一个检查,如果路径不存在,使用so.system,使用perl命令执行 download/gdown.pl脚本下载下方链接对应的文件,下载之后使用tar -xvf 对cnn_stories.tgz进行一个解压,至此云端的文件被下载到本地。接上述初始化模块,self.documents=[],self只在类中出现,代表的是类本身,这里为CNNDataset添加一个属性变量documents,类型为[]列表。............

2022-08-27 18:02:22 593 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除