李宏毅机器学习三天速成~第九课~Keras

最新推荐文章于 2023-04-13 20:37:13 发布

北府刘寄奴

最新推荐文章于 2023-04-13 20:37:13 发布

阅读量467

点赞数

分类专栏：机器学习文章标签： machine learning deep learning

本文链接：https://blog.csdn.net/FaustoPatton/article/details/86848606

版权

机器学习专栏收录该内容

15 篇文章 3 订阅

订阅专栏

1.Keras介绍

首先介绍一下为什么不用TensorFlow，这是因为TensorFlow是一个比较复杂且十分灵活的的toolKit，无法在短时间内学习会，Keras则是一个简单的工具，能够在短时间内学会。

下面是关于Keras的一些介绍和链接，Keras在希腊文中是牛角的意思。

使用Keras的学习心得，在他人的眼中和自己眼中的Keras是什么样子的

下面是一个关于DeepLearning的一个"Hello World":

在前面的课程中，neural network主要分成三个部分：

1.Define a set of function

2.goodness of function

3.pick the best function

2.Define a set of function

结合下图，黑色背景的为代码。

Dense是指全连接层（fully connected layer）

第一个是定义一个model。

第二个是在input layer定义输入数据的维度，输出的维度是500.activation是指激活的方法

第三个是指中间的layer。

第四个是指output layer。注意activation的方法是softmax。

3.goodness of function

下图中loss function使用的是方法由代码中参数“loss”制定，参数“optimizer”是指使用learning rate的方法，这在Gradient Descent中介绍过，有SGD等。

4.pick the best function

结合上图可以发现有四个参数，数据集就不说了。下面介绍一下batch_size和epoachs

首先随机指定初始参数。

结合下图中代码，batch_size是指将100个examples放到一个batch中，随机放

nb_epoch,是指重复一个epoch多少次。

注意：有一个误区：并不是epoch有多少次就update参数多少次，因为一个epoch就会update多次（这里的次数是batch的个数）参数。

当batch_size=1，整个过程相当于SGD。这个好处是速度很快。

既然SGD很好，为什么还要用mini_batch呢？下面是一个原因的介绍。注意看ppt。

考虑到实际的performance和GPU加速，batch size不能设置很大。

batchsize与运算时间，平行运算，可以缩简运算时间。

batchsize不能太大，这是由于内存的关系。此外，batchsize太大容易陷入局部极值点或者鞍点。

batchsize＝１，类似于随机梯度下降法，这样即使有GPU也不会加速运算。

5.Demo完整代码

先附上代码：

import os
os.environ['KERAS_BACKEND']='theano'
import numpy as np
import keras
import keras
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation

#from keras.layers import Convolution2D, MaxPooling2D, Flatten
from keras.layers import Conv2D, MaxPooling2D, Flatten
from keras.optimizers import SGD, Adam
from keras.utils import np_utils
from keras.datasets import mnist

def load_data():
   #由于外网连接问题，数据无法直接利用下式获取，可以读取本地数据
   #(x_train, y_train), (x_test, y_test) = mnist.load_data('mnist.npz')
   #读取本地数据
    path = './mnist.npz'
    f = np.load(path)
    x_train, y_train = f['x_train'], f['y_train']
    x_test, y_test = f['x_test'], f['y_test']
    f.close()
    number = 10000
    x_train = x_train[0: number]
    y_train = y_train[0: number]
    x_train = x_train.reshape(number, 28 * 28)
    x_test = x_test.reshape(x_test.shape[0], 28 * 28)
    x_train = x_train.astype('float32')
    x_test = x_train.astype('float32')
    # convert class vectors to binary class matrices
    y_train = np_utils.to_categorical(y_train, 10)
    y_test = np_utils.to_categorical(y_test, 10)
    x_train = x_train
    x_test = x_test
    # x_test = np.random.normal(x_test)
    x_train = x_train / 255
    x_test = x_test / 255
    return (x_train, y_train), (x_test, y_test)

if __name__=="__main__":
    (x_train, y_train), (x_test, y_test)=load_data()
    #print(x_train)
    print(x_train.shape)
    # common process-----------------------------------------------------------------------
    model = Sequential()
    model.add(Dense(input_dim=28 * 28, units=650, activation='relu'))

    # model.add(Dropout(0.8))#prevent overfitting add dropout
    model.add(Dense(units=650, activation='relu'))
    # model.add(Dropout(0.8))
    model.add(Dense(units=650, activation='relu'))
    # model.add(Dropout(0.8))

    # for i in range(25):
    # model.add(Dense(units=701, activation='relu'))

    model.add(Dense(units=10, activation='softmax'))

    # model.compile(loss='mse', optimizer=SGD(lr=0.1), metrics=['accuracy'])
    # model.compile(loss='categorical_crossentropy', optimizer=SGD(lr=0.1), metrics=['accuracy'])
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

    # start train-----------------------------------
    # model.fit(x_train, y_train, batch_size=1000, epochs=20)
    model.fit(x_train, y_train, batch_size=100, epochs=20)

    # Training set accuracy--------------------------------
    result = model.evaluate(x_train, y_train, batch_size=10000)
    print('\nTrain Acc:', result[1])

    # Testing set accuracy---------------------------------
    result = model.evaluate(x_test, y_test, batch_size=10000)
    print('\nTest Acc:', result[1])

该代码在pycharm中运行，其中第二行的代码是

os.environ['KERAS_BACKEND']='theano'

这句代码的含义是使用 theano在底层搭建神经网络。

下面进行解释：

Keras 的有两个 Backend（终端），也就是Keras基于什么东西来做运算。Keras 可以基于两个Backend，一个是 Theano，一个是 Tensorflow。如果我们选择Theano作为Keras的Backend，那么Keras就用 Theano 在底层搭建你需要的神经网络；同样，如果选择 Tensorflow 的话呢，Keras 就使用 Tensorflow 在底层搭建神经网络。

修改backend的方法：

import os
os.environ['KERAS_BACKEND']='theano'

因为搭建TensorFlow环境比较麻烦，或者说Pycharm直接导入tensorflow包容易出现bug，所以这里就简单一些导入了theano。当然tensorflow也是可以的，目前使用tensorflow环境多数是利用Anaconda集成。因为在另外一台电脑上集成了Anaconda+tensorflow，不想花大力气重新集成一遍。

下面附上本人Anaconda+tensorflow环境的集成教程（只要5积分，我不知道怎么设置0积分哈哈，私信我索取也行，私信链接在下）：

https://download.csdn.net/download/faustopatton/10952126

另外附上本人在这keras的demo实例（包含mnist数据）的链接：

https://download.csdn.net/download/faustopatton/10952129

相关内容将持续补充，刚出院，将加大火力更新blog。