jjjhut-CSDN博客

原创【无监督学习之聚类】

聚类：针对给定的样本，依据他们的属性的相似度或距离，将其归并到若干个“簇”或“类”的数据分析问题。类：样本的子集。直观上，相似的样本聚集在同类，不相似的样本分散在不同类。

2023-09-07 12:20:20 462

原创【继RNN之后的一项技术】Transfomer 学习笔记

注意力自主性：有目的的搜索某样东西（键）非自住性：无目的的关注某样东西（值）

2023-09-06 17:40:26 794

原创【Two Stream network (Tsn)】(二) 阅读笔记

所谓two-stream是指空间stream和时间stream，视频可以分成空间与时间两个部分，空间部分指独立帧的表面信息，关于物体、场景等；而时间部分信息指帧间的光流，携带着帧之间的运动信息。相应的，所提出的网络结构由两个深度网络组成，分别处理时间与空间的维度。

2023-09-06 16:52:18 545

原创【ViT（Vision Transformer）】(二) 阅读笔记

ViT是2020年Google团队提出的将Transformer应用在图像分类的模型，虽然不是第一篇将transformer应用在视觉任务的论文，但是因为其模型“简单”且效果好，可扩展性强（scalable，模型越大效果越好），成为了transformer在CV领域应用的里程碑著作，也引爆了后续相关研究。把最重要的说在最前面，ViT原论文中最核心的结论是，当拥有足够多的数据进行预训练的时候，ViT的表现就会超过CNN，突破transformer缺少归纳偏置的限制，可以在下游任务中获得较好的迁移效果。

2023-09-06 16:42:21 527

原创【ViT（Vision Transformer）】(一) 中英双语

虽然Transformer体系结构已成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构。我们表明，这种对细胞神经网络的依赖是不必要的，并且直接应用于图像补丁序列的纯变换器可以在图像分类任务中表现得很好。

2023-09-06 16:28:13 365

原创【TSN】（一）中英译文

我们研究了用于视频动作识别的判别训练深度卷积网络（ConvNets）的体系结构。挑战在于从静止帧和帧之间的运动捕获关于外观的补充信息。我们还致力于在数据驱动的学习框架内推广性能最佳的手工制作功能。我们的贡献是三倍的。首先，我们提出了一种包含空间和时间网络的双流ConvNet架构。其次，我们证明了在多帧密集光流上训练的ConvNet能够在训练数据有限的情况下获得非常好的性能。最后，我们证明了应用于两个不同动作分类数据集的多任务学习可以用来增加训练数据量并提高两者的性能。

2023-09-06 14:24:16 329

原创【卷积神经网络】（六）ResNet

残差神经网络(ResNet)是由微软研究院的何恺明、张祥雨、任少卿、孙剑等人提出的。ResNet 在2015 年的ILSVRC（ImageNet Large Scale Visual Recognition Challenge）中取得了冠军。在2012年的ILSVRC挑战赛中，AlexNet取得了冠军，并且大幅度领先于第二名。由此引发了对AlexNet广泛研究，并让大家树立了一个信念——“越深网络准确率越高”。

2023-08-24 08:42:04 65

原创【卷积神经网络】（五）GoogLeNet

在2014年的ImageNet图像识别挑战赛中，⼀个名叫GoogLeNet (Szegedy et al., 2015)的⽹络架构⼤放异彩。GoogLeNet吸收了NiN中串联⽹络的思想，并在此基础上做了改进。这篇论⽂的⼀个重点是解决了什么样⼤⼩的卷积核最合适的问题。毕竟，以前流⾏的⽹络使⽤⼩到1 × 1，⼤到11 × 11的卷积核。GoogLeNet的网络结构如下图所示。图中的矩形表示卷积层，池化层等。GoogLeNet的特征是，网络不仅在纵向上有深度，在横向上也有深度（广度）。

2023-08-02 18:57:00 61

原创【卷积神经网络】（四）NiN

NiN 亦称为网络中的网络。LeNet、AlexNet和VGG都有一个共同的设计模式：通过一系列的卷积层与汇聚层来提取空间结构特征；然后通过全连接层对特征的表征进行处理。AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。或者，可以想象在这个过程的早期使用全连接层。然而，如果使用了全连接层，可能会完全放弃表征的空间结构。网络中的网络NiN）提供了一个非常简单的解决方案：在每个像素的通道上分别使用多层感知机NiN块以一个普通卷积层开始，后面是两个1×1。

2023-08-02 18:36:01 68

原创【卷积神经网络】（三）VGG

VGG 是由卷积层和池化层构成的基础CNN。不过，如下图所示，它的特点在于将有权重的层（卷积层或者全连接层）叠加到16层（或者19层），具备了深度。VGG中需要注意：（1）基于3×3的小型滤波器的卷积层的运算是连续进行的。如上图所示，重复进行“卷积层叠加2次到4次，再通过池化层将大小减半”的处理，最后经由全连接层输出结果。AlexNet 与 VGG 的网络结构比较：同：本质上都是块设计。

2023-08-02 18:21:55 56

原创【卷积神经网络】（二）AlexNet

在LeNet问世20多年后，AlexNet被发布出来。它⾸次证明了学习到的特征可以超越⼿⼯设计的特征。AlexNet使⽤了8层卷积神经⽹络，其网络结构类似于LeNet，如下所示：AlexNet 叠有多个卷积层和池化层，最后经过由全连接层输出结果。

2023-08-02 18:08:37 33

原创【线性神经网络】（二）softmax回归

在我们的例子中，由于我们有4个特征和3个可能的输出类别，我们将需要12个标量来表示权重（带下标的。尽管softmax是一个非线性函数，但softmax回归的输出仍然由输入特征的仿射变换决定。为了估计所有可能类别的条件概率，我们需要一个有多个输出的模型，每个类别对应一个输出。在训练softmax回归模型后，给出任何样本特征，我们可以预测每个输出类别的概率。举一个极端的例子，假如数据流中的每个数据完全相同，这会是一个非常无聊的数据流。当我们赋予一个事件较低的概率时，我们的惊异会更大，该事件的信息量也就更大。

2023-08-02 16:12:54 63

原创【卷积神经网络】（一）LeNet

Fashion-MNIST数据集。本案例中的模型的训练和测试的数据集来自于del函数库中提供的Fashion-MNIST数据集。Label0T恤（T-shirt/top）1裤子（Trouser）2套头衫（Pullover）3连衣裙（Dress）4外套（Coat）5凉鞋（Sandal）6衬衫（Shirt）7运动鞋（Sneaker）8包（Bag）9靴子（Ankle boot）使用Python加载数据（需要NumPy）

2023-08-02 14:36:19 61

原创【卷积神经网络】（零）卷积层，池化层

输入数据得形状为(C,H,W)，C为通道数，H为高，W为长。滤波器的高为FH,长为FW,通道数和输入数据相同，为C。以3通道的数据为例，展示了卷积运算的结果。通道方向存在多个特征图，即按通道进行输入数据和滤波器的卷积运算，再将结果相加，得到输出。假设输入大小为（H，W）,滤波器大小为（FH,FW）,输出大小为（OH,OW），填充为P,步幅为S。在上图中，输入数据大小为（4，4），滤波器大小为（3，3），输出大小为（2，2）。填充即是在卷积层处理输入数据前，向输入数据的周围填入固定的数据（一般为‘0’）。

2023-08-02 13:32:14 483 1

原创【线性神经网络】(一) 线性回归 linear regression

经典统计学习方法中的线性回归和softmax回归可以视为线性神经网络。

2023-07-31 17:32:06 136 1

原创【机器学习】什么是熵？

其中 S 是熵，k 是玻尔兹曼常数，ln 是自然对数，W 是系统的微观态数的总和（即当前状态下微观粒子的排列组合数）。A状态下的微观态数可视为当前状态下的微观粒子的排列组合数，即选取全部N个蓝分子放入左侧空间，再放入全部N个红分子。（在这里，简化了计算的情况，只将孤立空间分为2个部分，其实我们可以分成更多的部分，以增加W的数量，提高准确性）B状态下的微观态数可视为当前状态下的微观粒子的排列组合数，即从。所以我们可以得知，从状态A到状态B，孤立空间的熵在增加。个放入左侧空间，剩下的。

2023-07-31 15:29:48 102

原创【leetcode 每日一题】 2500. 删除每行中的最大值时间：O(mn + nlog(n)) 空间：O（1）

排序每一行的时间复杂度为 O(nlog(n))，因为每一行最多有 n 个元素需要排序。找到每一列的最大值的时间复杂度为 O(mn)，因为需要遍历每一列，并找到其中的最大值。总体时间复杂度为 O(mn + nlog(n))。优化后的代码只使用了常数额外空间存储最大值，没有创建新的数组。因此，空间复杂度为 O(1)。如果存在多个这样的值，删除其中任何一个。给你一个 m x n 大小的矩阵 grid ，由若干正整数组成。注意每执行一次操作，矩阵中列的数据就会减 1。假设矩阵的行数为 m，列数为 n。

2023-07-27 17:03:29 52 1

原创【MLP】多层感知机

神经网络是当前机器学习领域普遍所应用的，例如可利用神经网络进行图像识别、语音识别等，从而将其拓展应用于自动驾驶汽车。它是一种高度并行的信息处理系统，具有很强的自适应学习能力，不依赖于研究对象的数学模型，对被控对象的的系统参数变化及外界干扰有很好的鲁棒性，能处理复杂的多输入、多输出非线性系统，神经网络要解决的基本问题是分类问题。真正的深度⽹络从MLP开始。最简单的深度⽹络称为多层感知机。多层感知机由多层神经元组成，每⼀层与它的上⼀层相连，从上一层接收输⼊；每一层与它的下一层相连，受到下一层的反馈（影响）。

2023-07-26 18:30:16 241 1

原创 python基础

本篇文章是作者为了学习深度学习而写的关于python的笔记，比较简单，偏向科学计算。

2023-07-26 16:05:10 90 1

原创【leetcode天天练】2569. 更新数组后处理求和查询

操作类型 1 为 queries[i] = [1, l, r]。对于 0

2023-07-26 16:01:43 52 1

原创 pytorch 2.0.1 版本 [gpu] 安装

我们下载anaconda的目的主要是为了下一步的python环境管理，所以不考虑anaconda与已有的python的版本是否匹配的问题。所以在这里我们就需要建立不同的环境，在不同的需要的时候去使用。深度学习中很多项目，由于其依赖包的各种各样，也导致了会出现多个项目使用的python版本不一致的情况。注意，在安装pytorch前最好安装你想下载的pytorch版本对应的cuda版本，以及cudnn。右上角的CUDA Version:为显卡支持的最高的CUDA版本。

2023-07-25 15:39:19 10861 6

原创 leetcode 每日一题 2208. 将数组和减半的最少操作次数

给你一个正整数数组 nums。每一次操作中，你可以从 nums 中选择任意一个数并将它减小到恰好一半。（注意，在后续操作中你可以对减半过的数继续执行操作）请你返回将 nums 数组和至少减少一半的最少操作数。2.通过小顶堆的push，pop操作，实现快速取最大值。1.我们每次都减少数组中最大的数字的一半。

2023-07-25 11:28:23 89

原创（每天一题）宝石与石头

给你一个字符串 jewels 代表石头中宝石的类型，另有一个字符串 stones 代表你拥有的石头。stones 中每个字符代表了一种你拥有的石头的类型，你想知道你拥有的石头中有多少是宝石。字母区分大小写，因此 “a” 和 “A” 是不同类型的石头。

2023-07-24 10:56:04 47

原创满足不等式的最大值(困难)

也就是说 points[i] = [xi, yi] ，并且在 1 <= i < j <= points.length 的前提下， xi < xj 总成立。请你找出 yi + yj + |xi - xj| 的最大值，其中 |xi - xj| <= k 且 1 <= i < j <= points.length。3.每次遍历完一个坐标后，对队列进行更新，从队尾开始，将y-x必当前值小的都弹出，保证在队列中，元素按y-x的值的大小降序排列。所以我们需要一个数据结构来存储满足xj-xi<=k的坐标的y-x。

2023-07-21 17:18:19 54 1

jjjhut的博客