- 博客(102)
- 收藏
- 关注
原创 YOLO--预测阶段后处理-NMS非极大值抑制 训练阶段(2)
虽然之前已经说过了非极大值抑制是如何发挥作用的 但是我觉得还是结合代码看比较好 这篇就是结合代码我们来分析一下 非极大值抑制到底是啥?
2025-06-12 20:43:07
351
原创 YOLO--目标检测综述、预测阶段(1)
YOLO就是解决目标检测问题的计算机视觉算法。计算机视觉可以解决图像分类、图像分割、目标检测等任务。下面这张图根据加不加框、加不加文字描述,是加框还是直接把物体的边缘给勾勒出来。依次分为检测、检测+定位、目标检测、图像分割(不满足画框,想得到像素级别的)
2025-06-12 17:15:50
698
原创 CNN大串烧--YOLO,ResNet,VGG
我先不更新数据处理、跑模型的文章,先更新一个CNN大串烧YOLO(You Only Look Once)是一种革命性的实时目标检测算法。它的核心创新是端到端训练:将将目标检测视为单一的回归问题,直接从图像像素到边界框和类别概率。全局推理:基于整张图像预测(而非局部区域),减少背景误检。
2025-06-11 21:09:50
638
原创 十分钟学会Pytorch--搭建模型(2)
输入通道数、输出通道数(卷积核的数目)、卷积核尺寸、填充像素#这个填充为1,可以使得3*3的卷积核对图像进行卷积之后,输出的特征图的尺寸和原图尺寸一样,大家可以手动试验#输入通道数为64,必须与卷积得到的通道数保持一致#使用relu激活函数#进行局部池化,使用最大值池化方法,kernel_size是池化窗口的尺寸,表示2*2#好的,这样就是一个卷积过程# 输入通道数、输出通道数(卷积核的数目)、卷积核尺寸、步长# 输入通道数为64,必须与卷积得到的通道数保持一致# 使用relu激活函数。
2025-06-11 11:35:21
720
原创 十分钟学会Pytorch--基础使用(1)
import torch.nn as nn 解释一下这个nn模块是干嘛的 模块包含了常见的神经网络层,可以直接调用nn.RNNnn.LSTMnn.GRUnn.ReLUnn.Sigmoidnn.Softmax等提供了常见的损失函数,用于训练时计算预测值与真实值的误差nn.BCELoss(二分类交叉熵)nn.MSELoss(均方误差),nn.L1Loss自定义损失:可以通过继承nn.Module实现。nn.model 是所有神经网络模块的基类 用户可以通过继承它自定义网络结构:在__init__
2025-06-10 22:09:50
886
原创 Tensorflow框架学习--熟悉 TensorFlow 基础语法(1)
张量包括标量(一个数字)、向量、矩阵、3D张量(x.shape = (2, 3, 4),三维数组)、4D张量(多个3D张量的集合)。tf.contant创建的是可变的张量,tf.variable创建的是不可变的张量(需要训练和更新的参数(如权重))# 创建一个标量张量(0维)# 创建一个向量(1维张量)d=tf.Variable([[1, 2], [3, 4]])#创建一个可变张量。
2025-06-10 17:48:24
612
原创 深度学习--语言模型(NLP基础)NLP基础知识和文本预处理
文本预处理靠各种 NLP 工具包 + Python 内置函数 + 正则表达式来实现。人类语言是不规范化、多样的。深度学习模型在处理前,需要干净、规范的文本。
2025-06-09 16:55:52
170
原创 关于大模型的一些知识点
模型按照顺序一个个输出词,当前的输出词依赖于之前的词一次送入模型进行前向传播和反向传播的数据样本数量。大批量训练快,小批量泛化好。每一步都选概率最高的词作为输出,速度快但可能缺乏多样性。通过设计提示语(Prompt)来引导模型生成更符合预期的结果。生成文字、图像、视频、音频等,都属于生成式AI训练数据太少,模型学习的看似很好,实际上只是记住了噪声那些没用的,而实际上需要学习的没学到(通用规律),就会导致在测试的时候结果不好将训练好的模型部署在服务器上,提供接口供客户端调用,实现模型推理和预测的功能。
2025-06-09 11:09:43
424
原创 三分钟掌握图像处理--卷积神经网络介绍(2)
在上一篇已经介绍了一个卷积神经网络的基本架构包括 输入层、卷积层、激活函数层、池化层、展平层、全连接层、输出层。当网络很深时(几十甚至上百层),梯度会在反向传播时消失或爆炸,导致模型难以优化。很多时候,“直接输出输入”已经不错了,那就让网络专注学“要改多少”就行。残差连接让梯度可以**“直接传回前面”**,不容易消失。:相当于训练了许多不同子网络的 ensemble。2. 让网络学的是“残差”而不是“整个映射”:避免某些神经元“抱团”学习固定模式。1. 解决“深层网络难以训练”的问题。
2025-06-09 09:37:46
282
原创 三分钟掌握图像处理--卷积神经网络介绍(1)
简单介绍卷积神经网络。就是专门用于图像处理的。工作原理包括卷积操作、激活函数、池化操作、全连接层。(这个下面详细说一下)CNN的主要层级包括卷积层、池化层、激活函数、全连接层、归一化层。CNN的训练过程包括前向传播、损失函数、反向传播CNN的优势包括自动特征学习、空间局部性、权重共享。
2025-06-08 18:25:09
536
原创 三分钟掌握图像处理--图像处理传统方法
直方图均衡化(Histogram Equalization)的目标并不是简单地使暗部更暗、亮部更亮,而是通过均匀化图像的灰度分布,提高图像的整体对比度,尤其是低对比度图像。原理是将图像中的每个像素值分布均匀化,使得图像中的每个灰度级别(亮度值)都尽可能多地被利用,从而增强图像的细节和对比度。统计每个灰度值(0到255)的出现频率,计算累计分布函数(CDF),CDF对每个像素的灰度值进行映射,映射得到的灰度值覆盖原来的像素的灰度值。,其目的是增加训练数据的多样性,从而提升模型的泛化能力。
2025-06-08 11:27:13
712
原创 三分钟掌握视频理解中的音频处理
音频是一种一维的时间序列信号,处理音频包括以下步骤(如常见的16kHz、44.1kHz)(每帧如25ms,帧移如10ms)降噪:就是为了去除背景噪声。常用的方法及其原理如下表假设这段视频是人声+风声 那么因为风声集中在低频段 所以就可以使用频域滤波器去除风声:其实就是去除认为是静音的片段 音频幅度低于某阈值超过一定时间,就判定为“静音”并裁剪。:把不同音频的音量幅度拉到统一的范围。避免模型对“声音大小”过于敏感。(我开始这里有疑惑。因为在视频高光检测中,音量也是一个检测的特征。
2025-06-08 10:03:09
615
原创 我接下来会更新什么?
然后我明天会先更新一些关于数据处理的基本知识点的学习 或者带大家读一些东西文章之类的 有时间会更新这些flag中的。我大概会至少更新这些文章 在写的过程发现让我困惑的地方我也会开新的 这里先汇总一下。4.多模态高光检测(CVPR 2022 HiST为代表)阅读一篇论文。2.全监督学习(有高光标签)3.弱监督 / 排序学习。5.对齐方法(结合代码)1.两阶段和同时建模。
2025-06-07 21:55:43
74
原创 十分钟明白什么是高光检测?--音频高光检测以及与视觉的对齐
音频高光检测就是利用音频信号去找到那些特别激动人心的片段 就比如你看一场球赛 只听声音就知道什么时候进球了 比如讲解员突然很激动 观众席掌声 或者播放了音乐等 这些都可以被算法识别出来 → 这些就是可能的“音频高光”。大家都知道音频都有哪些特征呢?大家看一下虽然大家可能都知道这是啥意思?但是我们还是具体来看模型到底是如何检测出这些特征的变化的。
2025-06-07 21:42:26
586
原创 十分钟明白什么是高光检测--聚类、注意力热力图剖开讲
步骤就是使用cnn\clip提取每一帧的特征向量 然后使用KMeans 等聚类算法对这些特征进行聚类 选取一个最中心的帧 作为该组的代表帧 好的我们来一一解释 比如说我们用clip将这个图转化为一个向量之后 这个kmeans算法就会随机初始化 K 个“聚类中心”(质心)然后开始分配向量 向量离哪个质心近 就被分配到哪个 然后更新每个质心(μj)为当前组中所有点的平均值 然后重复地进行分组 直到质心不再变化为止 然后每一组中“离该组质心最近”的那个帧,就是这一组的代表帧。
2025-06-07 20:11:08
967
原创 十分钟明白什么是高光检测?--无监督
这个任务可以用在很多场景,比如:体育比赛精彩镜头提取、教学视频的关键知识点提取、用户生成内容(UGC)中的短视频自动剪辑、自动驾驶中异常事件定位、多模态内容推荐系统自动检测哪些部分是高光部分 这就是精彩片段如何实现视频高光?1. 视频预处理(帧级别)
2025-06-07 17:12:01
707
原创 spark学习
【摘要】Apache Spark是一个高效的大数据处理框架,支持分布式计算,能快速处理海量数据。它具备批处理、实时计算、机器学习、图数据分析及SQL查询等功能,广泛应用于推荐系统、日志分析、数据清洗等场景。本文将简要介绍Spark的核心概念,后续内容将分享环境搭建教程,帮助初学者快速入门。想学习Spark的朋友可以关注更新,共同进步。(98字)
2025-06-04 10:02:14
179
原创 树的知识点
不要被至少迷惑 至少的意思是可以容纳所有情况至少是多少个 就像这五层楼会来10个尊贵的客人住 肯定按照最完善的去安排 每层的房间都要准备好 不然人家就不来了 所以应该是每一层的位置都考虑到 这道题10个节点倒是不重要 重要的是五层 也就是每一层的每个结点都是有可能被占的 既然是顺序存储结构的意思就是加入这个节点没有右孩子 那么这个存储位置就是空 因为要可以从这个顺序存储中还原这个树原本的结构 所以是1加到2的4次方 等于31。:这个节点下面连着的是它的子节点 子节点头上连着的是它的父节点。
2025-06-03 11:57:48
252
原创 视频理解多任务-General Object Foundation Model for Images and Videos at Scale
1.目标检测(Object Detection) 和 图像分割(Image Segmentation) 有什么区别?目标检测是检测这个物体,用一个框子框起来 分割的话会更精细 把这个物体轮廓也会显现出来 分割的话可以分为背景和前景、实例分割(区别不同物体,比如人A和人B)、语义分割(区别不同类别 比如人和箱子)2.什么是 边界框(Bounding Box) 和 掩码(Mask)?它们在标注数据时分别表示什么?边界框就是检测出这个物体之后 给它框起来的小块。
2025-06-02 15:45:35
765
原创 视频理解任务论文阅读-vid2seq
1.什么是密集视频描述?就是一段长视频 里面包括各种动作阶段 生成对应阶段干了什么事情 就是检测出多个事情并生成语言描述2.看这个图 vid2seq的作用就是将一个长视频分成几个部分 每个部分有对应的描述 而且设置了时间边界 开始和结束的时间3.vid2seq的作用就是:事件定位自动检测视频中发生的多个事件的时间边界(即每个事件的开始和结束时间) 事件描述:为定位到的每个事件生成自然语言描述。
2025-06-01 15:43:46
928
1
原创 视频理解多任务论文阅读-UVCOM
我们发现两者的侧重点不同:MR需感知局部关系,而HD需优先理解全局上下文。因此,缺乏任务特定设计将不可避免地限制两者内在特性的关联。为解决这一问题,我们提出统一视频理解框架(UVCOM),通过桥接这一差异来联合高效解决MR和HD。UVCOM通过在多粒度上逐步整合模态内与模态间信息,实现对视频的全面理解。此外,我们提出多角度对比学习,通过对齐的多模态空间强化局部关系建模与全局知识积累。MR的注意力模式(Strip-like Patterns)。
2025-05-31 12:42:47
766
1
原创 视频理解多任务论文精读-TimeChat: A Time-sensitive Multimodal Large Language Modelfor Long Video Understanding
1.什么是固定长度的视频编码?就比如我分别输入一段十分钟和一段十秒钟的视频,模型始终将其压缩为固定数量的token或特征向量。就比如本来一个token承载的信息是视频中的0.3秒 但是因为视频太长而token固定 token需要承载的信息变成了16s的 这样就会导致长视频会丢失很多信息 固定数量的token必须承载所有帧的信息(就比如要你将30页的文献压缩为一页)2.什么是时间关联?缺乏时间关联?首先什么是时间关联。是指模型能够将视频中的视觉内容(如画面、动作)与具体时间戳。
2025-05-29 16:23:26
970
3
原创 基数排序-附带python例题
然后就是我发现我上个计数排序的关于填充的部分貌似写的不太好 我明天吧或者后天会再更新一篇关于计数排序、基数排序和桶排序的一篇帖子 大家如果感兴趣的话可以先码住 写排序写的太急了 不哈意思~,这些过程像链条一样一环扣一环,逐步从最低位到最高位(或反之)完成排序(捂脸捂脸,只是因为其环环相扣的特性称之为链式基础排序 跟其他东西无关)基数排序通过从最低位(LSD)或最高位(MSD)开始,对数字的每一位进行多次排序。# 2. 计算累计次数(确定数字的最终位置)(或“基于桶的排序”)是因为它的核心操作依赖于。
2025-05-27 11:36:36
916
原创 计数排序-附带python例题
计数排序(Counting Sort)是一种的整数排序算法,通过统计元素出现的次数来实现排序,(k 是数据范围),特别适合的整数排序。
2025-05-27 11:04:38
915
1
原创 python每日一题 合并两个有序数组
我觉得好简单啊 不就是直接将数组2合并到数组1里面 然后用一个不适用额外的空间的排序方法 就比如说冒泡排序?nums1[i] = temp # 进行交换。这个题目的要求是不能使用额外的存储空间 那我们来思考一下应该怎么做呢?刚刚学习归并排序的时候看到一个有趣的题 我们来一起做做试试吧。最终,合并后数组不应由函数返回,而是存储在数组。虽然这个题没啥意义 但是既然写了就放在这里吧。个元素表示应合并的元素,后。中,使合并后的数组同样按。
2025-05-26 21:54:35
286
原创 归并排序 附带python代码练习题
我感觉文字说比较匮乏 大家可以去看看视频讲解 反正将两个数组合并为一个数组这个大家肯定是知道的 然后两个数组是将Nums从中间截开这个大家也是知道的 截开之后进行合并也就是将两个数组合并为一个数组这个操作大家也是知道的 那这不就绕回来了 感觉递归难的就是将这一个操作想象到很多个这样的操作 如何控制确实是实现了这很多个操作(好吧 我也不知道自己在说啥 反正就是那么个意思)下面这个代码就是左边数组和右边数组都知道了 然后合并为一个有序数组 谁合并完了就把剩下的元素合并到数组当中去 使用到了extend。
2025-05-26 21:43:43
818
原创 堆排序-附带python例题
我直接写在这里 大家看一下我加了什么 经过上面的现在已经是一个大根堆了 然后我需要根节点 然后让最后一个节点换到根节点的位置 从这个节点开始再进行大根堆调整 反映到代码上就是经历k-1次这样的输出 此时此刻在顶上的那个元素就是第k个最大的元素 看好调整剩余堆 因为实际上原本的根节点是被输出的 这里我换为了和最后一个节点进行交换 但是再进行下一次调整的时候 已经是从n-i-1开始 那么最后一个节点 也就是前一个堆的根节点 已经被输出出去了 请大家仔细看看这个代码 还是挺重要的一段代码。
2025-05-26 20:46:24
1076
原创 简单选择排序 附带python例题
知道思路是从未排序的中选一个最小的放到最前面 然后剩下的未排序的选择最小的放到当前未排序的最前面就行了。min_1=i#找到最小的那个的下标 和j进行兑换。nums[min_1]=temp#元素互换。
2025-05-26 19:30:41
200
原创 快速排序 附带python例题
好的 在学完冒泡排序之后 我们紧接着学习快速排序 快速排序是一种分治思想 在序列中找个基准值 然后分成两部分 小于基准值的放在左边 大于基准值的放在右边 然后对左右两个部分重复这个过程 直到子数组的长度为1或者为0大家应该可以很清楚地感受到这个是用到递归的 但是是比较简单的递归了 就是很简单的思路 我设置两个数组 如果比这个设定值小 就放数组1 不然放数组2 然后数组合并在一起 等我后面更个关于递归的帖子 如果大家感兴趣的话可以关注我~好的 有了这个思路 那我们就开始写代码了。
2025-05-26 17:25:16
386
原创 排序方法-冒泡排序 附带例题
大家对于冒泡学习的了解多吗?我先啰嗦几句什么是冒泡排序你可以按照最大的元素排在最后这个规律 也可以按照最小的元素排在最前这个规律 就拿最大的元素排在最后这个来说 就是每次都在未排好的序列里面去找这个最大的 排在后面第一趟的话就把整个序列最大的放在最后 接下来的未排序的数组就不包括最后一个了 就从前面的序列里面再找一个最大的 放在最后 以此类推那么是如何进行比较的呢 就是两两比较 索引0和索引1 比 谁大谁会在后 然后索引1再和索引2比:比较所有相邻元素,将全局最大值交换到末尾。
2025-05-26 14:39:16
361
原创 排序算法 -希尔排序
因为使用dn是进行分组的 在索引为dn的之前的元素 每一个都是一组的开头 开头是定在那里的 相当于一共有这么多组数组要进行直接插入排序 现在首元素是定着的 所以i的位置是从dn开始的。4.J的话就是进行比较的 就像直接插入排序一样 我遇到比我大的我就往前走 但是我走的步数是dn直到找到了不比我大的 我就排在它后面 这不就是直接插入排序吗?[9, 6, 5, 3, 2, 4, 7, 1, 8] 初始间隔为4 那么就是 9 2 8 排序是 2 8 9 对这些数使用 直接插入排序。j=j-dn#继续向前走。
2025-05-26 11:15:55
477
原创 python 每日一题 进制求和
需要注意的点就是while条件 以及遇到已经遍历完的情况应该怎么处理 以及遇到这种最高位需要进位的时候应该如何处理 将整体的逻辑思考好 代码也就差不多可以了 该考虑的情况要好好考虑。思路就是遍历 当前的值是根据当前的相加和下一位的进位决定的 取余就是当前的值 //就是应该往上面进的值 然后因为你存的时候是反过来的 所以要翻一下 而且连接符是啥都没有的''然后还有很粗心的就是在 a1 b1是0的时候是有效的字符 所以应该是为负的时候才会将其看作是0 这个地方太粗心了 最后修改好的代码就是。
2025-05-25 11:22:53
916
原创 python每日一题 求算术平方根
对于为什么return right自己可以在纸上写写看 然后就是这个二分查找对于找很多东西都是适用的 因为只需要存储一些变量 完全不用为数的范围分配内存 我看大多数大佬都是用的这个方法 那咱就不分析其他的方法了。然后我觉得这个没啥问题 该输出的也都可以 但是超出内存限制了 就比如 x很大的话其实找这个i是很难的 那么就可以使用另外一个方法就是二分查找 只需要存储几个变量而不是整个数字范围。不允许使用任何内置指数函数和算符,例如。由于返回类型是整数,结果只保留。
2025-05-25 10:25:38
286
原创 直接插入排序和折半插入排序 数据结构--排序算法学习 附带python题目
这是一个关于排序的部分帖子 我肯定要分开发 不然就我这样的 肯定写着写着不想写了 这个帖子就更直接插入和折半插入。
2025-05-24 21:38:35
809
原创 python每日一题 这是个技巧题 轮转数组
再看 1 2 3 4 往前移动2个 按照k+1 那应该是 3 4 1 2 按照k+1 应该是4 1 2 3 这不对 而且我的k+1的由来是我开始写的是k 然后发现变成K+1可以得到想要的结果 真的是 这个逻辑不对啊 你要是移动的话 只能说是 你末尾的那个元素现在到了开头 比如 1 2 3 4 5 6 7如果是移动k个 那么 此时5在开始的位置。1,2,3,4,5,6,7往前移动三个 是5671234 从k+1开始确实是对的。nums[:k]=nums[:k][::-1]反转前k个元素。
2025-05-24 15:40:30
810
原创 python每日一题 数组中的第k个最大元素
更完这个 再更一个 我真的要学习树去了 再不去复习已经没有可以更的题目了 人也不能只天天在自己会的地方去反复学 感觉列表和单纯的链表已经没啥的了 主要是和栈、队列、树进行结合了。我不懂这个题的意义在哪?还是中等题 这也是太简单了 哦默默需要时间复杂度是o(n)那这个不行 那需要使用快速排序之类的 不可以使用sorted 但是我这里先不写这个代码了。我觉得自己天天立下的flag都没好好执行 前几天还说更新树呢 今天我又想先更新排序算法了。请注意,你需要找的是数组排序后的第。个最大的元素,而不是第。
2025-05-24 14:59:41
190
原创 python每日一题 搜索旋转排序数组
可能是 2222211112 也可能是23452222千奇百怪的 但是我没有想到特别好的解决这个重复的 我就问了一下chat 结果就是加上这句 if nums[mid] == nums[left] == nums[right]: left += 1 right -= 1 continue 因为不确定 所以要进行一步的处理 在旋转有序数组中,同样的 如果是右边有序 和最右边元素比较 如果比最右边元素小 只能在右边找 如果比最右边元素大 那右边这不必找了 只能跑到左边去找 如果相同就return。
2025-05-24 14:47:54
1021
原创 python每日一题 反转链表
然后天杀的 我发现这个Left right指的是位置 不是数值 我真的服了 这个例子给的要不要再恶心一点 好吧是我不认真看题 那我们重新开始来过 这样其实更简单了 我直接存进数组里面 把该反转的反转 然后再转化为链表就好了。我现在就是一看到这样的 就会想着和列表进行结合 我也确实这么做了 就是找到这两个数所在的指针 然后将中间包括本身的数存到一个列表里面 然后将列表进行反转 然后再把列表中的元素存回去。current.next = ListNode(num) # 创建新节点并链接。
2025-05-23 21:50:20
484
1
原创 python每日一题 删除有序数组中的重复项
那么我们就直接来干脆的 移动的时候判断 如果是相等 并且此时差距已经大于等于2 那直接就开删 不用等到不相等的时候了 不然遇到111永远等不到相等的时候了 然后我解释一下下面的代码 当两者相等的时候right就会往前移动 一旦差距大于等于2 就开始删 删完之后更新left的位置 只要二者相等 right就会往前移动 删完之后更新left的位置 right也还是回往前移动 如果不相等更好办了 直接往前移动就可以了。#不管是删还是没删 left right的位置都要开始发生改变。else:#重复不超过2。
2025-05-23 20:55:53
768
原创 python每日一题 今天的每日一题就更新到这里
然后我测试的时候说我应该返回一个链表 我看他题目给出的最后结果明明是列表 但是没事 无伤大雅 改一下返回的类型就行 也不用再转链表了 蛮好的 其实我这个转来转去本来就很多余 返回链表刚刚好。我想说点废话 就是我觉得我需要去学习一下了 我下个帖子要更关于树的学习 我在此立一个flag。改好返回的类型之后运行结果击败100% 我觉得这个题目真的是蛮简单的 最重要的就是想到。我觉得这个用列表做会好做 然后对于列表中的元素进行循环移动 我知道切片操作超级好用。,旋转链表,将链表每个节点向右移动。
2025-05-22 12:44:46
603
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人