keras
keras的优点
Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。
keras具有以下优点:
简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)
支持CNN和RNN,或二者的结合
无缝CPU和GPU切换
通过keras建立序列模型
序列模型
序列模型属于通用模型的一种,这种模型各层之间是依次顺序的线性关系,
在第K层合第K+1层之间可以加上各种元素来构造神经网络这些元素可以通过一个列表来制定,然后作为参数传递给序列模型来生成相应的模型。
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Activation
# Dense相当于构建一个全连接层,32指的是全连接层上面的神经元的个数
layers = [Dense(32, input_shape=(784, )),
Activation('relu'),
Dense(10),
Activation('softmax')]
model = Sequential(layers)
# 打印模型的形状
model.summary()
keras案例
"""
IMDB数据集是Keras内部集成的
IMDB数据集包含来自互联网的50000条严重两极分化的电影评论,
该数据被分为用于训练的25000条评论和用于测试的25000条评论,
训练集和测试集都包含50%的正面评价和50%的负面评价
该数据集已经经过预处理:评论(单词序列)已经被转换为整数序列,其中每个整数代表字典中的某个单词
"""
from keras.datasets import imdb
from keras.preprocessing import sequence
"""
首先对数据进行预处理
"""
max_features = 10000 # 作为特征的单词数量, 仅保留训练数据的前10000个最常出现的单词,低频单词将被舍弃,这样得到的向量数据不会太大,便于处理
maxlen = 500 # 在这么多单词之后截断文本(这些单词都属于前max_features个最常见的单词)
batch_size = 32
print('Loading data...')
(input_train, y_train), (input_test, y_test) = imdb.load_data(num_words=max_features) # 加载数据集
print(len(input_train), 'train sequences')
print(len(input_test), 'test sequences')
print(input_train[0])
"""
这一段代码可以将某条评论迅速解码为英文单词
"""
# word_index = imdb.get_word_index() # 拿到imdb的字典
# reverse_word_index = dict([(value, key) for (key, value) in word_index.items()]) # 把索引和单词对应起来
# decoded_review = ' '.join([reverse_word_index.get(i-3, '?') for i in input_train[0]]) # 0,1,2 是padding, start of sequence和unknown, 所以要跳过
# print(decoded_review)
"""
我们不能将整数序列直接输入神经网络,需要先将列表转换为张量,转换方式有两种
1. 填充列表
将长为nb_samples的序列转化为(nb_samples, nb_timesteps)2D numpy array。
如果提供了参数maxlen,那么nb_timesteps=maxlen,否则其值为最长序列的长度
如果设定长度为500, 那么超过500的部分舍弃,不到500则补0
2. 对列表进行one-hot