Python,Pytorch使用 CNN-Transformer,对图像分类源程序。
程序旨在学习如何构建CNN-Transformer网络,以及如何转换数据维度使得CNN的输出能够衔接Transformer,本程序是将CNN的输出通道数直接匹配作为Transformer的维度。CNN可以提取图像的空间特征,Transformer则提取长时序列特征,模型创新性较强。
在使用此程序时,建议先大致了解Transformer框架的基本结构:Transformer模型中有Encoder和Decoder模块。参考了许多使用Transformer做分类的程序,模型中均是只使用了Encoder模块。本程序仅使用了Transformer的Encoder模块,没有用Decoder。且没有用Embedding,因为考虑到需要级联CNN,Embedding不好写进去,而且图像Flatten后的序列也没有明确的位置信息,可以不用Embedding。
整体工作如下:
1、加载数据集,训练集有猫狗各400张,测试集有猫狗各100张。数据量一共1000张图像。
2、搭建CNN_Transformer网络,定义优化器和损失函数。
3、训练,显示训练acc和loss。
4、测试,计算acc、pre、recall、f1-score,绘制混淆矩阵。
注:程序包含原始数据和代码,注释详细,容易看懂。能直接运行,如运行遇到问题可远程帮忙调通。网上教学多为手写数字分类或Ciffar10图像分类,不方便替换成自己的图像数据。本程序图像为本地文件夹的图像,方便替换成自己的图像。再次注意本程序没有使用Decoder和Embedding。时间关系,只解答简单问题。
本程序完全由本人手写,整理不易,价格低廉25元,唯一渠道为闲鱼售卖,谴责其他用户、网站盗卖。
【闲鱼链接】:https://m.tb.cn/h.gKFLWVW?tk=BksJ3htHl19 CZ0002
如果连接失效,可在闲鱼搜索:耐心的等待5283,然后点“用户”即可找到个人主页下的程序。