textsum源码

哈哈哈 第一次写博客
第一篇博客 记录下超级菜的我跑textsum源码的过程(都是坑 以及被自己蠢哭)刚接tensorflow和python 因为要做论文的实验所有好多东西不懂就直接拿源码来看的

github上下载的源码,说要用bazel编译,没装这个东西,我直接在windows下装的tensorflw,但是因为参数都是通过FLAGE来传递的,跑一次之后再跑就不行了,好像说有冲突啥的 不太清楚 所以我就用就把flage全换掉了 直接定义参数
  
  
  
另外 github上给了一个toy data 用这个数据集的时候一定要注意它的abstract key="abstract"而不是代码里的“headline"刚开时不知道结果出来的每个线程都显示什么index out of range. 因为它找不到key为headline的内容,访问就会出错。
改完这个之后代码终于能跑起来了 就是可以显示每一步以及相应的loss了,但是很奇怪,step等于30的时候loss就很低了。我用tensorboard观察了几个参数(这个tensorboard也很难搞的样子,也不是说难,就是之前老是不显示,要多注意下路径),发现参数没变化,曲线跟一扇门一样,正巧在一个群里看到有人出现了同样的问题(loss函数不下降,权重也没变化),他说改变下初始化权重的方法可以改善这种情况,loss不下降时因为过拟合了。当然,改了之后我发现自己并不是这个问题(但是记着,万一以后有这样的情况知道可以怎么改)。我在代码中加了很多步骤的输出,发现了好多问题:
1.从文件读过来的数据时byte类型的,在将单词转换成对应id时找不到对应的id以至于全部变成了unk的id(这里稍作保留,因为我后来发现是因为他给的vocab文件里好多data中的单词都没有才会显示成unk);
另外,byte类型的数据不能用join操作,在batch_reader文件中,如下,将其转换成string类型

2.给的vocab文件中很多data中的词没有,所以我自己根据data提取了一个词表,目前看代码运行情况是正常的,等等看吧。。。

总结:语言表达能力差,不会用博客,加个图搞半天,还弄了个表格进来 微笑




  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值