import tensorflow as tf
import numpy as np
import os
#使用cpu进行运算,注释掉使用gpu运算
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
# 读取文件,所有文本读成一个字符串,总长度为600893
path = tf.keras.utils.get_file('nietzsche.txt',origin='https://s3.amazonaws.com/text-datasets/nietzsche.txt')
text = open(path).read().lower()
print('Cropus length',len(text))
首先读取数据,这个数据是一篇文章,包含的所有字符全部读取成一个字符串。
这里有个cpu个gpu切换的两行代码,注释掉这两行使使用gpu环境,这是首先安装gpu版的tensorflow。
# 采样过程,一个句子长度为60,隔3步取60长度为60的样本,总样本量为200278,
# 一个样本长度为60
maxlen = 60
step = 3
sentences = []
next_chars = []
for i in range(0, len(text) - maxlen, step):
sentences.append(text[i:i + maxlen])
next_chars.append(text[i + maxlen