Tensorflow图像生成文本(2)词表词频的构建

本文介绍了在Tensorflow中构建图像生成文本任务时,如何处理flickr30k数据集的token文件,进行分词并统计词频。词频统计用于创建词表文件,包含文字到文字id及id到文字的映射,低频词将被排除以优化模型训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

了解了Tensorflow图像生成文本实现(1)flickr30k数据集介绍数据集之后,需要对其中的token文件进行解析,对数据进行初步处理。

词表词频构建

因为是一句句的描述,因此需要进行分词,并统计出每个词的词频,将其对应的储存在一个文件中。这个文件的作用有两个:

  1. 在后序程序中,需要中该词表文件中读取内容,组成两个字典,一个是从文字到文字id的映射,另一个是从文字id到文字的映射。
  2. 通过词频,可以将词频过低的词直接去掉,这些词对模型的训练贡献率非常低,所以就排除掉。

代码如下

import os
import sys
import pprint

input_description_file = "./data/results_20130124.token"
output_vocab_file = "./data/vocab.txt"

def count_vocab(input_description_file):
    with open(input_description_file) as f:
        lines = f.readlines()
    max_length_of_sentences = 0 # 所有句子中 最长长度
    length_dict = {} # 统计 句子长度字典 {长度:句子总数}
    vocab_dict = {} # 词表字典 {词:词频}
    for line in lines:
        image_id, description = line.strip('\n').split('\t')
        words = description.strip(' ').split() # 分词
        # words 的 格式 ['Two', 'young', 'guys', 'with', 'shaggy', 'hair', ……]

        max_length_of_sentences = max(max_length_of_sentences, len(words)) # 选择一个最大值放入
        length_dict.setdefault(len(words), 0)
        length_dict[len(words)] += 1

        # 词表 统计
        for word in words:
            vocab_dict.setdefault(word, 0)
            vocab_dict[word] += 1

    print(max_length_of_sentences)
    pprint.pprint(length_dict)
    return vocab_dict

vocab_dict = count_vocab(input_description_file)
sorted_vocab_dict = sorted(vocab_dict.items(), key = lambda d:d[1], reverse=True) #对 词表进行排序

with open(output_vocab_file, 'w') as f:
    f.write('<UNK>\t1000000\n')
    for item in sorted_vocab_dict:
        f.write('%s\t%d\n' % item)

生成的词表格式如下:

<UNK>	1000000
a	181627
.	151039
A	90071
in	83224
the	57402
on	45538
and	44253
is	41108
man	40277
of	38773
with	36171
,	25285
woman	21236
are	20189
to	17603
Two	16446
at	16157
wearing	15694
people	14148
white	13039
shirt	12975
black	12084
young	12021
while	11650
his	11489
blue	11268
an	11119
red	9857
sitting	9608
...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值