数据处理方法总结

最新推荐文章于 2023-09-18 20:00:00 发布

big_matster

最新推荐文章于 2023-09-18 20:00:00 发布

阅读量111

点赞数

分类专栏：数据处理方式文章标签：深度学习 python tensorflow

本文链接：https://blog.csdn.net/kuxingseng123/article/details/128748332

版权

数据处理方式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

实现LSTM

在这里插入图片描述
数据以Tab键分割

数据处理模板

from keras.models import Model
from keras.layers import Input,LSTM,Dense
import numpy as np

batch_size = 64  #分批次
epochs = 100  #训练迭代次数
latent_dim = 256
num_samples = 10000

data_path = 'cmn.txt'

#数据向量
input_texts = []
target_texts = []
input_characters = set() #创建一个无序不重复的元素集.
with open(data_path,'r',encoding = 'utf-8') as f:  #以只读的方式进行打开
    lines = f.read().split('\n')   #读取并切分
for line in lines[:,min(num_samples,len(lines) - 1)]:
    #遍历样本行数范围
    #  We use "tab" as the "start sequence" character
    #for the targets, and "\n" as "end sequence" character.
    input_text,target_text = line.split('\t') #区分输入文本，目标文本
    target_text = '\t' + target_text + '\n' #空四个字符，类似于文档的tab键 相当于按一个Tab键.
    input_texts.append(input_text)
    target_texts.append(target_text)
    for char in input_text:
        if char not in input_characters:
            input_characters.add(char)
    for char in target_text:
        if char not in target_characters:
            target_characters.add(char)
#将输入字符生成列表并进行排序
input_characters = sorted(list(input_characters))
target_characters = sorted(list(target_characters))
num_encoder_tokens = len(input_characters)
num_decoder_tokens = len(target_characters)
#最大编码序列长度
max_encoder_seq_length = max([len(txt) for txt in input_texts])
#最大解码序列长度
max_decoder_seq_length = max([len(txt) for txt in target_texts])

            
print('Number of samples:', len(input_texts))
print('Number of unique input tokens:', num_encoder_tokens)
print('Number of unique output tokens:', num_decoder_tokens)
print('Max sequence length for inputs:', max_encoder_seq_length)
print('Max sequence length for outputs:', max_decoder_seq_length)