深度学习框架
文章平均质量分 85
cztAI
系统 = 输入 + 输出
展开
-
论文:CSWin Transformer
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows图像被分割为固定大小的图块(token),任意图块或多或少与其他图块有关系(依赖),对图块序列建模会产生长期依赖问题,目前全局 self-attention 能比较好的解决这个问题,而全局 self-attention 为二次计算复杂度,SWin Transformer (滑动窗口)采用局部 self-attention 解决计算复杂度问题,而原创 2021-07-24 20:27:02 · 1342 阅读 · 2 评论 -
论文:Attention is all you need
论文:https://arxiv.org/abs/1706.03762自注意力,有时也被称为内注意,是一种注意机制,将单个序列的不同位置联系起来,以计算该序列的表示。架构编码器(左半部分)和解码器(右半部分)左半部分的编码器一共有N = 6个子编码器,图中仅显示一个。每一个子编码器都有两层。一层是Multi-Head Attention (多头自注意机构),另一层是 Feed Forward(全连接的前馈网络)。在这两层都使用一个恒等映射(残差结构),然后进行层归一化。每一层的输出表示为原创 2021-06-23 00:07:56 · 1948 阅读 · 1 评论 -
论文:ViT(Transformer 图像分类)
论文:https://arxiv.org/abs/2010.11929pytorch代码:https://github.com/lucidrains/vit-pytorch1. 前言在计算机视觉中,卷积结构仍然占主导地位。 受NLP中Transformer扩展成功的启发,我们尝试将标准Transformer直接应用于图像,并进行最少的修改。为此,我们将图像拆分为小块,并提供这些小块的线性嵌入序列作为Transformer的输入。图像图块与NLP应用程序中的token(words)的处理方式相同,以监督原创 2021-06-23 20:52:02 · 9995 阅读 · 5 评论 -
论文: LeViT(Transformer 图像分类)
LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference论文:https://arxiv.org/pdf/2104.01136.pdf代码:https://github.com/facebookresearch/LeViT摘要我们提出了LeVIT:一种用于快速推理图像分类的混合神经网络。我们在不同的硬件平台上考虑不同的效率度量,以便最好地反映广泛的应用场景。我们的大量实验验证了我们的技术选择,并表明它们适用于大多数体原创 2021-06-25 13:17:42 · 2609 阅读 · 2 评论 -
resnet 残差网络(翻译)
摘要更深的神经网络更难训练。我们提出了一个残差学习框架,以简化比以前使用的网络更深入的网络训练。我们明确地将层重构为参考层输入的学习残差函数,而不是学习未参考的函数。我们提供了全面的经验证据,表明这些残差网络更容易优化,而且可以从相当大的深度提高精度。在ImageNet数据集上,我们评估了深度高达152层的残差网——比VGG网深8倍[41],但复杂性仍然较低。这些残差网络的集合在ImageNet测试集上实现了3.57%的误差。该结果在ILSVRC 2015分类任务中获得第一名。我们还对100层和1000层翻译 2021-06-06 20:13:54 · 1000 阅读 · 0 评论 -
Pytorch搭建GoogLeNet网络(奥特曼分类)
1 爬取奥特曼get_data.pyimport requestsimport urllib.parse as upimport jsonimport timeimport osmajor_url = 'https://image.baidu.com/search/index?'headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)原创 2021-06-03 12:39:43 · 667 阅读 · 5 评论 -
使用 Pytorch 训练 AlexNet 识别5种花朵
文章目录1 数据1.1 准备工作1.2 数据下载1.3 数据分类2 模型3 训练4 测试1 数据1.1 准备工作新建一个文件夹AlexNet,在文件夹AlexNet新建一个文件夹flower_data,将下载后的数据解压并放到文件夹flower_data。1.2 数据下载下载 Tensorflow 的花朵图片http://download.tensorflow.org/example_images/flower_photos.tgz1.3 数据分类在文件夹AlexNet右键打开终端gedi原创 2021-05-27 10:17:42 · 2042 阅读 · 0 评论 -
训练一个分类器(Pytorch官方教程)
文章目录数据训练一个图像分类器1.加载并规范化CIFAR10展示一些训练图片2. 定义卷积神经网络3.定义损失函数和优化器4.训练网络数据通常,当需要处理图像、文本、音频或视频数据时,可以使用标准的python包将数据加载到numpy数组中。然后你可以把这个数组转换成torch.*Tensor。对于图像,诸如Pillow、OpenCV之类的软件包很有用对于音频,软件包如scipy和librosa对于文本,可以使用原始Python或基于Cython的加载,也可以使用NLTK和SpaCy特别是对翻译 2021-05-27 07:59:40 · 1278 阅读 · 0 评论 -
VGG——深度学习框架(二)
用于大规模图像识别的深度卷积网络摘要在这项工作中,我们研究了卷积网络深度对其在大规模图像识别设置的准确性的影响。我们的主要贡献是通过使用非常小(3×3)卷积滤波器的架构对增加深度的网络进行了全面的评估,这表明通过将深度推至16-19个权重层,可以显著改善现有技术配置。这些发现是我们ImageNet 2014挑战赛提交的基础,我们的团队在本地化和分类方面分别获得了第一名和第二名。我们还表明,我们的表示可以很好地推广到其他数据集,在那里他们获得了最先进的结果。我们已经公开了我们的两个性能最好的卷积神经网络模翻译 2021-05-14 00:46:08 · 910 阅读 · 0 评论 -
AlexNet 论文粗读
一个人工智能系统,由数据、算法和算力构成。1 数据在我们学习的机器学习或深度学习知道,数据集很小会导致过拟合,它限制了网络的大小,也就限制了识别类别的数量。更大的数据集能提高网络的性能。这篇论文使用的数据集是ImageNet。数据集ImageNet是一个包含超过1500万张高分辨率图像的数据集,大约22000个类别。ILSVRC(ImageNet大规模视觉识别挑战赛)仅使用ImageNet的一个子集,在1000个类别中每个类别大约有1000张图片。总共大约有120万张训练图像,5万张验证图像和15万原创 2021-05-12 15:50:19 · 184 阅读 · 0 评论