知识图到文本的生成(五)

这部分代码主要涉及知识图谱到文本生成任务的数据向量化过程,包括构建词汇表、设置特殊标记、处理关系和实体向量,以及批处理数据的准备。通过对训练集的处理,创建了INP、OUTP、REL和ENT的词汇表,并使用adjToBatch函数处理矩阵数据,以适应深度学习模型的需求。
摘要由CSDN通过智能技术生成

2021SC@SDUSC 

 

这一部分代码仍旧属于mkVocab函数,但重点与上半部分不同,上半部分集中于训练集的构建,而该部分着手于将数据集向量化并传递给主体

self.OUTP.build_vocab(train, min_freq=args.outunk)   
self.TGT.vocab = copy(self.OUTP.vocab)
specials = zip("method material otherscientificterm metric task".split(" ")

利用build_vocab函数从训练集train中构建向量,条件为min-freq=args.outtunk,并产生一个OUTP.vocab的副本,赋值于self.TGT.vocab。zip是Python的一个内置函数,用于将可迭代对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表,在这里我们将训练集通过split函数按照“ ”拆分字符串后形成元组列表,生成specials列表。

for x in specials:
      s = "<"+x[0]+"_"+str(x[1])+">"
      self.TGT.vocab.stoi[s] = len(self.TGT.vocab.itos)+x[1]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值