【论文】AlexNet 一

1.研究成果

AlexNet在ILSVRC-2012以超出第二名10.9个百分点夺冠

2.研究意义

  • 拉开卷积神经网络统治计算机是觉得许墨
  • 加速计算机视觉应用落地

3.摘要内容

  • 在ILSVRC-2010的120万张图片上训练深度卷积神经网络,获得最优结果,top-1和top-5error分别为 37.5%, 17%
  • 该网络(AlexNet)由5个卷积层和3个全连接层构成,共计6000万参数,65万个神经元
  • 为加快训练,采用非饱和激活函数——ReLU,采用GPU训练
  • 为减轻过拟合,采用Dropout
  • 基于以上模型及技巧,在ILSVRC-2012以超出第二名10.9个百分点成绩夺冠

 

4.模型分析

卷积输出特征图:

F_o = [\frac{F_{in}-k+2p}{s}]+1

其中,fs其中,F_o为特征图的边宽,F_{in}为原特侦图的变宽,k为卷积核的边宽,p为padding,s为stride。

连接数量计算公式:

F_i\times (K_{s} \times K_s)\times K_n +K_n

F_i前一层的通道数,K_s为卷积核的宽,K_n为通道数(卷积核数量)

Layer NameFilterPaddingKernelStrideImgSizeTensor SizeWeightsBiasesParameters
Input Image     227*227*3000
Conv-196011*114

(227-11+2*0)/4+1

=55

55*55*96

3*(11*11)

*96=34848

9634,944
MaxPool-19623*32(55-3)/2+1=2727*27*96000
Conv-225625*51 27*27*256

96*(5*5)*256=

614400

256614,656
MaxPool-225603*32 13*13*256000
Conv-338413*31 13*13*384

256*(3*3)*384=

884736

384885,120
Conv-438413*31 13*13*384

384*(3*3)*384=

1327104

3841,327,488
Conv-525613*31 13*13*256

384*(3*3)*256=

884736

256884,992
MaxPool-325603*32 6*6*256000
FC-1     4096*1

(6*6*256)*4096=

37748736

4,09637,752,832
FC-2     4096*1

4096*4096=

16777216

4,09616,781,312
FC-3     1000*1

4096*1000=

4096000

1,0004,097,000
Output     1000*1000
Total         


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.结构特点

ReLU Nonlinearity

A four-layer convolutional neural network with ReLUs (solid line) reaches a 25%  training error rate on CIFAR-10 six times faster
than an equivalent network with tanh neurons (dashed line) .
使用ReLU对比使用tanh 达到25%的准确率时,时间快了6倍。除此之外,ReLu可以防止 梯度消失(弥散),也使网络 具有稀疏性。

 

Local Response Normalization

 
 
侧抑制
b_{(x,y)}^i = (\frac{a_{x,y}^i }{k+\alpha \sum_{j=max(0,i-\frac{n}{2})}^{min(N-1,i+\frac{n}{2})} (a^j_{x,y})^2 })^\beta

i:代表下标,你要计算像素值的下标,从0计算起

j:平方累加索引,代表从j~i的像素值平方求和

x,y:像素的位置,公式中用不到

a:代表feature map里面的 i 对应像素的具体值

N:每个feature map里面最内层向量的列数

k:超参数,由原型中的blas指定

α:超参数,由原型中的alpha指定

n/2:超参数,由原型中的deepth_radius指定

β:超参数,由原型中的belta指定

关注\sum_{j=max(0,i-\frac{n}{2})}^{min(N-1,i+\frac{n}{2})} (a^j_{x,y})^2部分,这部分越大抑制情况越明显。假设有一个神经元权值巨大,周围的比较小,那么临近它的神经元在分母上的和都比较大,从而造成了对其的抑制。

Response normalization reduces our top-1 and top-5 error rates by 1.4% and 1.2%, respectively. We also verifified the effectiveness of this scheme on the CIFAR-10 dataset: a four-layer  CNN achieved a 13% test error rate without normalization and 11% with normalization 3 .

使用了LRN之后在top-1和top-5上分别提高了 1.4%和1.2%。

 

Data Augmentation

文章中对训练图片进行了预处理,增强效果,具体如下:

  • 裁剪图片

训练阶段:

1.图像统一缩放至256*256

2.随机位置裁剪出224*224区域

3.随机进行水平翻转

测试阶段:

1.图片统一缩放至256*256

2.裁剪出5个224*224区域

3.均进行水平翻转,共得到10张224*224图片

  • 针对颜色图像扰动

通过PCA方法修改RGB通道的像素值,实现颜色扰动,效果有限,仅在top-1提升1个点(acc约为62.5%),实际上现在有更好办法。

 

常用的图像增强方法,翻转,裁剪,灰度,对比度,色彩(改变数据的分布、改变通道的pai'lie)

 

 

代码改进

LRN取消,为什么取消呢?效果平庸为啥呢?BN的介绍。

https://zhuanlan.zhihu.com/p/87117010

Dropout、reLu

https://space.bilibili.com/390756902/video

 

5.代码实现

函数主体部分

在本示例代码中用了预训练的参数集

在函数主题部分主要分为5个步骤:

1. 加载测试图片

2. 加载预训练模型

3. 获得分类结果

4. 在json文件中找到预测的名称并打印

5. 显示结果

if __name__ =="__main__":

    # config
    # alexnet 训练结果
    path_state_dict = os.path.join(BASE_DIR,"..","data","alexnet-owt-4df8aa71.pth")
    # 被测试的图片
    path_img  = os.path.join(BASE_DIR,"..","data","1.jpg")
    path_classnames = os.path.join(BASE_DIR, "..", "data", "imagenet1000.json")
    path_classnames_cn = os.path.join(BASE_DIR, "..", "data", "imagenet_classnames.txt")

    #load class names, cls_n,cls_n_cn分别为分类的内容
    cls_n, cls_n_cn = load_class_names(path_classnames,path_classnames_cn)

    # 1/5 load img
    img_tensor, img_rgb = process_img(path_img)

    # 2/5 load model
    alexnet_model = get_model(path_state_dict,True)

    # 3/5 inference     tensor --> vector
    # time consuming:time_toc-time_tic 判断时间
    with torch.no_grad():
        time_tic = time.time()
        outputs = alexnet_model(img_tensor)
        time_toc = time.time()

    # 4/5 index to class names
    # 返回两个tensor , 1. 每行的最大值。2.每行最大值的位置
    _, pred_int = torch.max(outputs.data, 1)
    _, top5_idx = torch.topk(outputs.data, 5, dim=1)

    # 如果想把CUDA tensor格式的数据改成numpy时,需要先将其转换成cpu float-tensor随后再转到numpy格式。 numpy不能读取CUDA tensor 需要将它转化为 CPU tensor
    pred_idx = int(pred_int.cpu().numpy())
    pred_str, pred_cn = cls_n[pred_idx], cls_n_cn[pred_idx]
    print("img: {} is: {}\n{}".format(os.path.basename(path_img), pred_str, pred_cn))
    print("time consuming:{:.2f}s".format(time_toc - time_tic))


    # 5/5 visualization
    plt.imshow(img_rgb)
    plt.title("predict:{}".format(pred_str))
    top5_num = top5_idx.cpu().numpy().squeeze()
    text_str = [cls_n[t] for t in top5_num]
    for idx in range(len(top5_num)):
        plt.text(5, 15+idx*30, "top {}:{}".format(idx+1, text_str[idx]), bbox=dict(fc='yellow'))
    plt.show()

功能函数

 根据分类文件的路径读取json文件内容

def load_class_names(path_classnames, path_classnames_cn):
    """
    @param path_classnames: imagenet1000.json 目录
    @param path_classnames_cn:
    @return:
    """
    with open(path_classnames,"r") as f:
        class_names = json.load(f)
    with open(path_classnames_cn, encoding='UTF-8') as f:   # 设置文件对象
        class_names_cn  = f.readlines()
    return class_names,class_names_cn

 

输入图片对图片进行预处理

def process_img(path_img):
    """
    # 对图片进行预处理
    @param path_img:输入的预测图片
    @return:
    """
    norm_mean = [0.485, 0.456, 0.406]
    norm_std = [0.229, 0.224, 0.225]

    inference_transform = transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop((224, 224)),
        transforms.ToTensor(),
        transforms.Normalize(norm_mean, norm_std),
    ])

    # path --> img
    img_rgb = Image.open(path_img).convert('RGB')


    # img --> tensor
    img_tensor = img_transform(img_rgb, inference_transform)
    img_tensor.unsqueeze_(0)        # chw --> bchw
    img_tensor = img_tensor.to(device)

    return img_tensor, img_rgb

def img_transform(img_rgb, inference_transform=None):
    """
    将数据转换为模型读取的形式
    @param img_rgb:
    @param inference_transform:
    @return:
    """
    if inference_transform is None:
        raise ValueError("找不到transform!必须有transform对img进行处理")

    img_t = inference_transform(img_rgb)
    return img_t

 

获取模型,其中model.eval代表文章中的dropout随机失活,torchsummary可以打印每层结构

def get_model(path_state_dict, param):
    """
    创建模型,加载参数
    @param path_state_dict:
    @param param:
    @return:
    """
    model = models.alexnet()
    pretrained_state_dict  = torch.load(path_state_dict)
    model.load_state_dict(pretrained_state_dict)
    # drop 函数
    model.eval()

    # 打印torch每层形状
    if param:
        from torchsummary import summary
        summary(model, input_size=(3,224,224), device="cpu")

    model.to(device)
    return model

 

6.效果展示

控制台打印:


----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
================================================================
            Conv2d-1           [-1, 64, 55, 55]          23,296
              ReLU-2           [-1, 64, 55, 55]               0
         MaxPool2d-3           [-1, 64, 27, 27]               0
            Conv2d-4          [-1, 192, 27, 27]         307,392
              ReLU-5          [-1, 192, 27, 27]               0
         MaxPool2d-6          [-1, 192, 13, 13]               0
            Conv2d-7          [-1, 384, 13, 13]         663,936
              ReLU-8          [-1, 384, 13, 13]               0
            Conv2d-9          [-1, 256, 13, 13]         884,992
             ReLU-10          [-1, 256, 13, 13]               0
           Conv2d-11          [-1, 256, 13, 13]         590,080
             ReLU-12          [-1, 256, 13, 13]               0
        MaxPool2d-13            [-1, 256, 6, 6]               0
AdaptiveAvgPool2d-14            [-1, 256, 6, 6]               0
          Dropout-15                 [-1, 9216]               0
           Linear-16                 [-1, 4096]      37,752,832
             ReLU-17                 [-1, 4096]               0
          Dropout-18                 [-1, 4096]               0
           Linear-19                 [-1, 4096]      16,781,312
             ReLU-20                 [-1, 4096]               0
           Linear-21                 [-1, 1000]       4,097,000
================================================================
Total params: 61,100,840
Trainable params: 61,100,840
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.57
Forward/backward pass size (MB): 8.38
Params size (MB): 233.08
Estimated Total Size (MB): 242.03
----------------------------------------------------------------
img: tiger cat.jpg is: tabby, tabby cat
281 n02123045 猫, tabby, tabby cat

time consuming:1.75s

Process finished with exit code 0

预测图片展示:

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 下面是一个使用 TensorFlow 实现 AlexNet 的代码示例: ```python import tensorflow as tf model = tf.keras.models.Sequential([ tf.keras.layers.Conv2D(96, (11, 11), strides=(4, 4), input_shape=(224, 224, 3), padding="valid", activation="relu"), tf.keras.layers.MaxPool2D(pool_size=(3, 3), strides=(2, 2), padding="valid"), tf.keras.layers.Conv2D(256, (5, 5), strides=(1, 1), padding="same", activation="relu"), tf.keras.layers.MaxPool2D(pool_size=(3, 3), strides=(2, 2), padding="valid"), tf.keras.layers.Conv2D(384, (3, 3), strides=(1, 1), padding="same", activation="relu"), tf.keras.layers.Conv2D(384, (3, 3), strides=(1, 1), padding="same", activation="relu"), tf.keras.layers.Conv2D(256, (3, 3), strides=(1, 1), padding="same", activation="relu"), tf.keras.layers.MaxPool2D(pool_size=(3, 3), strides=(2, 2), padding="valid"), tf.keras.layers.Flatten(), tf.keras.layers.Dense(4096, activation="relu"), tf.keras.layers.Dropout(0.5), tf.keras.layers.Dense(4096, activation="relu"), tf.keras.layers.Dropout(0.5), tf.keras.layers.Dense(1000, activation="softmax") ]) model.compile(optimizer=tf.keras.optimizers.SGD(lr=0.01, momentum=0.9), loss="categorical_crossentropy", metrics=["accuracy"]) ``` 在这段代码中,我们使用了 `tf.keras.models.Sequential` 来定义模型的结构,模型包括卷积层(`Conv2D`)、池化层(`MaxPool2D`)、全连接层(`Dense`)和 dropout 层(`Dropout`)。我们使用了 `compile` 方法来编译模型,并指定了损失函数和优化器。 ### 回答2: 使用TensorFlow实现AlexNet,可以按照以下步骤进行: 1. 导入相关库: ```python import tensorflow as tf from tensorflow.keras import layers ``` 2. 构建AlexNet模型的网络结构: ```python model = tf.keras.Sequential() model.add(layers.Conv2D(filters=96, kernel_size=(11,11), strides=(4,4), padding='valid', activation='relu', input_shape=(227,227,3))) model.add(layers.BatchNormalization()) model.add(layers.MaxPooling2D(pool_size=(3,3), strides=(2,2), padding='valid')) model.add(layers.Conv2D(filters=256, kernel_size=(5,5), strides=(1,1), padding='same', activation='relu')) model.add(layers.BatchNormalization()) model.add(layers.MaxPooling2D(pool_size=(3,3), strides=(2,2), padding='valid')) model.add(layers.Conv2D(filters=384, kernel_size=(3,3), strides=(1,1), padding='same', activation='relu')) model.add(layers.BatchNormalization()) model.add(layers.Conv2D(filters=384, kernel_size=(3,3), strides=(1,1), padding='same', activation='relu')) model.add(layers.BatchNormalization()) model.add(layers.Conv2D(filters=256, kernel_size=(3,3), strides=(1,1), padding='same', activation='relu')) model.add(layers.BatchNormalization()) model.add(layers.MaxPooling2D(pool_size=(3,3), strides=(2,2), padding='valid')) model.add(layers.Flatten()) model.add(layers.Dense(4096, activation='relu')) model.add(layers.Dropout(0.5)) model.add(layers.Dense(4096, activation='relu')) model.add(layers.Dropout(0.5)) model.add(layers.Dense(1000, activation='softmax')) ``` 3. 编译模型: ```python model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) ``` 4. 训练模型: ```python model.fit(x_train, y_train, batch_size=64, epochs=10, validation_data=(x_val, y_val)) ``` 注意,上述代码中的`x_train`、`y_train`、`x_val`和`y_val`是训练集和验证集的输入和标签数据。 以上就是使用TensorFlow实现AlexNet的简要步骤,希望可以帮助到你! ### 回答3: AlexNet是深度学习领域中非常经典的卷积神经网络模型,使用Python的TensorFlow库可以相对简单地实现这个模型。 首先,我们需要导入tensorflow库和其他一些必要的库。 ```python import tensorflow as tf from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout ``` 然后,我们可以定义一个函数来创建AlexNet模型。 ```python def create_alexnet(): model = Sequential() # 第一层卷积 model.add(Conv2D(96, kernel_size=(11, 11), strides=4, activation='relu', input_shape=(227, 227, 3))) model.add(MaxPooling2D(pool_size=(3, 3), strides=2)) # 第二层卷积 model.add(Conv2D(256, kernel_size=(5, 5), activation='relu')) model.add(MaxPooling2D(pool_size=(3, 3), strides=2)) # 第三、四、五层卷积 model.add(Conv2D(384, kernel_size=(3, 3), activation='relu')) model.add(Conv2D(384, kernel_size=(3, 3), activation='relu')) model.add(Conv2D(256, kernel_size=(3, 3), activation='relu')) model.add(MaxPooling2D(pool_size=(3, 3), strides=2)) # 全连接层 model.add(Flatten()) model.add(Dense(4096, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(4096, activation='relu')) model.add(Dropout(0.5)) model.add(Dense(1000, activation='softmax')) return model ``` 在该代码中,我们使用了`Sequential`模型来构建AlexNet,然后按照论文中的架构添加了一系列卷积层、池化层和全连接层。 最后,我们可以使用以下代码来创建并编译模型。 ```python model = create_alexnet() model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) ``` 这样就成功地使用tensorflow实现了AlexNet神经网络模型。可以使用该模型进行图像分类、目标识别等任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wL魔法师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值