下载CUB200对应的caption标签

文章介绍了如何使用PyTorch加载CUB200数据集中metadata.pth文件,将txt文件中的词ID转换为实际单词,涉及到数据预处理和文本处理技术。
摘要由CSDN通过智能技术生成

kaggle这个网页介绍了CUB200数据的主要内容CUB 200 2011 | Kaggle

在这个地方对应的是caption标签的txt文件,把这个txt文本下载下来

下载下来的txt里面是word的id,然后根据网页的介绍,这里有一个metadata.pth文件,用来 把id转成word,把这个metadata.pth也下载下来。

 下面是把id转成word的代码过程。

import torch
metadata=torch.load("D:\研究生生活实录\数据资料\CUB_200_2011\metadata.pth\metadata.pth")

with open("D:\研究生生活实录\数据资料\CUB_200_2011\cub_200_2011_all_caps.txt")as f:
    rawtext=f.readlines()
 
newtext=[]

for sentence in rawtext:
    
    tempnewsentence=[]
    sentence=sentence.replace("\n",'')
    sentence=list(sentence.split(' '))
    for word_id in sentence:
        if word_id=='0':
            break
        word=metadata['word_id_to_word'][int(word_id)]
        tempnewsentence.append(word)
    newsentence=' '.join(w for w in tempnewsentence )
    newtext.append(newsentence)

转之前的样子

 转之后的样子

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值