识别动漫图片的神经网络构建

最新推荐文章于 2024-03-18 19:09:02 发布

dodouaj

最新推荐文章于 2024-03-18 19:09:02 发布

阅读量5.4k

点赞数 7

分类专栏：神经网络 CNN 文章标签：神经网络 CNN

本文链接：https://blog.csdn.net/dodouaj/article/details/55213593

版权

本文通过构建和调整卷积神经网络（CNN），尝试识别动漫图片。初始模型正确率为0.46，发现网络结构问题后，逐步优化，包括替换卷积层、调整数据预处理和网络宽度。经过优化，正确率提升到0.79。测试集标签错误导致初次评估偏低，修正后，模型表现良好。代码已开源在GitHub上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先，利用百度抓来的图片，分为训练集和测试集
训练集：动漫图片8168张，非动漫图片9906张。
测试集：动漫图片1785张，非动漫图片1984张

使用cifar10的分类神经网络，按照“动漫”0，“非动漫”1进行训练网络。
每批次60个数据，训练了20000批，发现正确率的评估结果约为0.46…
什么鬼。。。测试集中动漫图片占得比例为 1785/(1785+1984) = 0.473。。。
把输出结果logits打印出来，发现logits基本上是[-0.09, 0.09]…这样的数据，难怪正确率与比例差不多。。。

修改为网络结构，把原来的local3层换成conv3卷积层，并对conv3的结果pool，输出一个[60, 3, 3, 64]的张量到local4，后面的结构跟之前的都一样。跑了一会儿，发现conv3层的稀疏率接近为1了。。。网络结构有问题。

继续修改网络结构。原来的数据张量使用[32, 32, 3]，不进行randomCrop了，同时，去掉了conv2后面的pool层。结果，训练速度降低了，每批次耗时是之前的三倍左右，conv3的稀疏性很快跳到了0.96，conv1和conv2的稀疏性很不稳定，total_loss有所下降。是不是卷积层太多了呢，去掉conv3试试，

去掉了conv3，现在网络结构是input(32*32*3)->conv1->conv2->local3->soft_linear
训练速度是cifar的2倍左右，看来网络“宽度”对训练速度的影响很大。
前200步中，conv2的稀疏率直奔0.9375，并维持