kaggle这个网页介绍了CUB200数据的主要内容CUB 200 2011 | Kaggle
在这个地方对应的是caption标签的txt文件,把这个txt文本下载下来
下载下来的txt里面是word的id,然后根据网页的介绍,这里有一个metadata.pth文件,用来 把id转成word,把这个metadata.pth也下载下来。
下面是把id转成word的代码过程。
import torch
metadata=torch.load("D:\研究生生活实录\数据资料\CUB_200_2011\metadata.pth\metadata.pth")
with open("D:\研究生生活实录\数据资料\CUB_200_2011\cub_200_2011_all_caps.txt")as f:
rawtext=f.readlines()
newtext=[]
for sentence in rawtext:
tempnewsentence=[]
sentence=sentence.replace("\n",'')
sentence=list(sentence.split(' '))
for word_id in sentence:
if word_id=='0':
break
word=metadata['word_id_to_word'][int(word_id)]
tempnewsentence.append(word)
newsentence=' '.join(w for w in tempnewsentence )
newtext.append(newsentence)
转之前的样子
转之后的样子