自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos

具体来说,我们首先通过锚划分层产生非重叠的锚序列,然后实现三个过程来获得最终预测:(1)通过级联的时间swin transformer块对锚之间的上下文知识建模来获取基于多尺度上下文的锚特征[12]。为了充分利用长视频中丰富的跨模态语义关系,我们在一个训练步骤中用一批基于该视频的查询对一个视频进行采样,然后借助所提出的对偶形式近似秩损失同时优化全长锚秩和查询秩,从而实现了优越的跨模态对齐。双重形式近似秩损失。给定大量的候选锚点,我们的目标是获得这样一个锚点秩:与查询语义相关的锚点应该排在不相关的锚点之前。

2023-05-15 14:06:49 300

原创 【论文阅读】MINOTAUR: Multi-task Video Grounding From Multimodal Queries

背景动机细粒度的视频理解已经成为增强现实(AR)和机器人应用开发的关键能力。为了达到这种级别的视频理解,智能体(例如虚拟助手)必须具备识别和推理视频中捕获的事件和对象的能力,处理一系列视觉任务,如活动检测、对象检索和(空间)时间基础。然而,目前关于视频理解的研究主要集中在使用特定任务的注释数据集训练个体的、高度专业化的模型,而没有考虑多个任务之间的协同作用和模型对新任务的泛化。作者寻求一种替代方法——为多个细粒度视频理解任务构建一个统一的框架。具体来说,目标是调查两个关键的研究问题(i)设计

2023-05-13 16:35:50 767

原创 Video Grounding

然而,候选片段的重叠导致了太多的冗余计算,而且单独的成对的片段查询匹配也可能忽略了上下文的视频信息。同时,虽然不需要像两阶段 方法那样进行预分割,但它的结果仍取决于被提案 出的候选片段的排名,这也会影响其效率。所示,它利用多模态处理模块将候选片段的表征与 句子表征相融合,然后将融合后的表征送入另一个 全连接层,以预测候选片段的对齐分数以及候选段 和目标段之间的位置偏移。在这个空间中,句子查询和相应的目标视频 片段之间的 L2。与基于锚点的方法相比,无锚点的方法具有更 高的计算效率和对可变时长视频的鲁棒性。

2023-05-13 11:17:41 919

原创 DL代码能力提升2

对张量a进行成k块,但如果指定轴的元素个数被chunks除不尽,最后一块的元素个数会少。将input的值限制在[min, max]之间,并返回结果。中提取值,注意是只包含一个元素,否则的话使用.tolist(), optional) – 输出张量,一般用不到该参数。.item()用于在只包含一个元素的。.item()的用法。

2023-03-26 10:42:19 257

原创 人工智能实践——Restauraut+ 食物识别分析与营养规划系统

项目背景描述: 项目以落地性强、准确度高为主要宗旨。对于餐厅而言。目前,由于使用收银机,餐厅的付款流程仍然是人工的且效率低下的。收银员会检查顾客点了什么食物,然后在收银台上进行结算。效率并不高。因此,食物识别设备和自动食物价格估算可以解决这些问题。食物识别分析旨在优化餐厅付款付款流程,并使用计算机视觉方法自动估算食物价格。传统的方法有餐盘识别价格计算法,该方法通过设置价格区间,不同的价格对应不同颜色的餐盘,因此算法只需要有能力识别各种颜色的餐盘即可,这样做优点是准确率高、算法设计简单,缺点是价格只能

2023-03-25 08:00:00 3990 4

原创 山大计算机视觉实验4

•记[x’, y’]=f([x, y])为像素坐标的一个映射,实现 f 所表示的图像形变,并采。下角像素的坐标为(xi, yj+1),右上角像素的坐标为(xi+1, yj)。设左上角像素的坐标为(xi, yj),右下角像素的坐标为(xi+1, yj+1),则左。该像素在目标图像中的位置为(x',y'),其中 x'和 y'也是实数,表示其在目标图。始图像中的一个像素点(x,y)要映射到目标图像的位置(x',y')上。图像中的位置为(x,y),其中 x 和 y 为实数,表示其在原图像中的浮点坐标。

2023-03-24 08:00:00 552

原创 山大计算机视觉实验3

这里我只交换改变参数a,固定参数b。具体来说,将每个像素的像素值作为sigmoid函数的输入,调整sigmoid函数的参数,然后将输出值作为像素值进行修改。实验3.1的代码实现了一个基本的对比度调整功能,使用了Sigmoid函数对图像进行了变换,同时利用了OpenCV的窗口系统和滑块控件,提供了交互式的用户界面,使得用户可以方便地调整参数,实时查看效果。另外,为了进一步提高检测的准确性,也可以采用一些改进的背景建模方法,如自适应背景建模、基于深度学习的方法等,从而减少对阈值的依赖性,提高背景相减的效果。

2023-03-23 08:00:00 757

原创 山东大学机器学习大作业

DLRM是Facebook在2019年提出的用于处理CTR问题的算法模型,与传统的CTR模型并没有太大的差别,文章本身更注重的是工业界对于深度模型的落地,在文中介绍了很多深度学习在实际落地过程中的细节,包括如何高效训练。第一,如何处理离散特征。CTR的训练样本中包含了大量的离散的类别特征,这样的数据是不能直接放入到深度学习模型中,在DLRM中,通过Embedding层将离散的特征转化成稠密的特征;特征交叉对于CTR问题的求解具有重要的作用,在DLRM模型中,模仿着FM算法中的做法,对向量两两做点积。

2023-03-22 08:17:43 5073

原创 山东大学机器学习实验12

另一种观察这种过度拟合的方法是查看在不同数据子集上训练的模型,例如,在下图中,我们训练了两棵不同的树,每棵树都在原始数据的一半上。很明显,这并不是真实的、内在的数据分布的结果,而更多的是数据的特定采样或噪声特性的结果。然后我们运用sklearn中的决策树进行分类训练,并借助指导给出的可视化函数绘图:建立在该数据上的简单决策树将根据某个定量标准沿着一个或另一个轴迭代分割数据,并在每个级别根据新区域内的多数投票分配新区域的标签。②森林中树之间的相关度:树之间的相关度越大,则随机森林的分类性能越差。

2023-03-22 08:17:09 3062

原创 DL代码能力提升1

print(a)# 结果。

2023-03-21 10:21:56 5670

原创 山东大学机器学习实验11

首先对每个属性尝试分类并计算出信息熵,从结果可以看出第0维度的信息熵最小,即纯度最高,为0.333.所以我们接下来用第0维度的属性进行决策划分,可以看出划分后的左子树的信息熵为0,即全属于一个类,右子树的信息熵为0.5.所以接下来我们只用对右子树进行划分,我们开始尝试对右子树进行决策划分,从结果可以看出第1维度的信息熵最小,即纯度最高,为0.110.所以我们接下来用第1维度的属性进行决策划分,可以看出划分后的左子树的信息熵为0.168,右子树的信息熵为0.042.可以通过集成学习之类的方法来改善。

2023-03-21 10:09:25 511

原创 paper总结(10)SOFTMATCH: ADDRESSING THE QUANTITY-QUALITYTRADE-OFF IN SEMI-SUPERVISED LEARNING

对于FlexMatch来说,即使训练初期使用了较低的阈值以提高利用率(相比于FixMatch为高数量),但是伪标签中引入了过多的错误标签(约16%所使用的标签是错误的).(我们认为这也是FlexMatch在svhn上不work的主要原因). 相比于之前的方法,SoftMatch在保证高利用率的同时,通过对可能错误的标签分配较低的权重,以同时实现高质量。间的trade-off。动态阈值通过前期降低(不同类别/不同数据)的阈值,来引入更多的伪标签在前期参与训练,但是前期的低阈值会不可避免的引入质量低的伪标签。

2023-03-20 06:00:00 5808

原创 山东大学机器学习实验10

每一行代表一个图像,其中第一项是标签,而下面的第一项是像素的索引和相应的灰度值。下面是gamma=100,与之前的相比,可以看见蓝色类别的样本点的分布曲线都比较窄,此时的决策边界就是这些蓝色类别样本点周围围绕的区域,只有样本点在这些区域内才判定样本点为蓝色类别,否则,将样本点判定为红色类别,这也出现了轻微的过拟合现象。这里我们使用高斯核函数,即RBF,其中gamma=1,然后绘制出决策边界,如下图所示:这是一个非线性的分类边界,虽然有一些分类错误,但这些点都是噪声点,所以我们得到了较好的决策边界。

2023-03-20 04:00:00 1377

原创 山东大学机器学习实验9

上图是使用RBF核函数的SVM得到的分类边界,gamma等于100,由于现在的gamma值比较大,所以可以看见每个蓝色类别的样本点的分布曲线都比较窄,此时的决策边界就是这些蓝色类别样本点周围围绕的区域,只有样本点在这些区域内才判定样本点为蓝色类别,否则,将样本点判定为红色类别。下面是使用高斯(RBF)核函数的SVM,也是使用Pipeline将数据归一化和核函数为“rbf”的SVM链接在一起,其中的gamma参数值取值越大表示的就是高斯函数(正太分布)的那个分布曲线越高瘦,分布曲线变的尖尖的。

2023-03-19 08:00:00 1349

原创 山东大学机器学习实验8

我们在param_grid中提前设置需要调整的参数,比如用于kneighbors查询的默认邻居的数量:n_neighbors从1到10,和用于Minkowski metric(闵可夫斯基空间)的超参数p ,使用的是闵可夫斯基空间从1到5.然后运行网格搜索就可以从设定的参数范围找到最好的模型并返回对应的参数,对于超参数的选择非常方便。而且用经过归一化处理后的数据进行模型训练,最后用同样归一化处理过的测试集进行验证,发现结果出奇的好,所以对数据进行合适的预处理,比如归一化,就会得到较好的模型训练。

2023-03-19 04:00:00 1316

原创 paper总结(9)FREEMATCH: SELF-ADAPTIVE THRESHOLDING FORSEMI-SUPERVISED LEARNING

由于不同的类具有不同的类内多样性水平(不同的σ),并且有些类比其他类更难分类(μ2 -μ1较小),因此需要一个细粒度的类特定阈值来鼓励向不同的类公平分配伪标签。将提到的类公平目标纳入FreeMatch,以鼓励模型对每个类做出不同的预测,从而产生有意义的自适应阈值,特别是在标记数据很少的设置下。在本文中,作者首先利用一个激励性的例子来证明,不同的数据集和类应该根据模型的学习状态确定它们的全局(特定于数据集)和局部(特定于类)阈值。局部阈值旨在以特定于类的方式调整全局阈值,以考虑类内的多样性和可能的类邻接性。

2023-03-18 22:31:33 8819 2

原创 山东大学机器学习实验7

但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。根据上述的这些,我们就可以计算给定数据在每个类上的概率,取其中的最大值,即该数据点属于哪一个类。

2023-03-18 08:00:00 392

原创 山东大学机器学习实验6

其中矩阵的行表示真实值,矩阵的列表示预测值,混淆矩阵能够帮助我们迅速可视化各种类别误分为其它类别的比重,这样能够帮我们调整后续模型,比如一些类别设置权重衰减!下图为P-R图,即查准率为纵坐标,召回率为横坐标,若其中有多条曲线,则线条与坐标系包围的面积越大,说明模型的性能越好,其中越接近(1,1),性能越好。下图为ROC曲线,即真正率为纵坐标,假正率为横坐标:在此图中,AUC,即曲线下的面积越大,说明模型的性能越好,越接近(0,1),表示性能越好。"""计算y_true和y_predict之间的准确率"""

2023-03-18 04:00:00 1566

原创 山东大学机器学习实验4

λ较大,则特征对于代价函数的影响较大,结果是算法会尽量降低参数的影响,可能导致欠拟合。λ较大,则特征对于代价函数的影响较大,结果是算法会尽量降低参数的影响,可能导致欠拟合。1.经过几次实验,发现应该记住回归方法中的一些公式,比如损失函数以及求导后的结果,海森矩阵等等,整体的结构和流程都是差不多,记忆后这样再写代码的时候更快,比较方便。

2023-03-17 08:00:00 1954

原创 山东大学机器学习实验5

这是第二个示例中,随着特征个数保留的变化,方差的变化情况,从图中可以看出,当保留特征数为2时,方差仅仅只有0.2左右,所以这就是为什么正确率只有60%。当特征数在30左右时,方差增加的很缓慢,区域稳定,所以当保留95%的方差时,数据降维到28维,且正确率为0.98。这是第一个示例,图中紫色散点图是原来数据的二维特征,图中红色散点是用PCA将2维数据降至1维后,又返回到二维绘制的图像,这就相当于将紫色的点投影到红色所在的线上。1.主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。

2023-03-17 08:00:00 1836

原创 山东大学机器学习实验3

在这个练习中,假设一所高中有一个数据集,它代表了40名被大学录取的学生和40名未被录取的学生。每个(x(i)、y(i))培训示例都包含一个学生在两个标准化考试中的分数,以及一个学生是否被录取的标签。你的任务是建立一个二元分类模型,根据学生在两场考试中的分数来估计大学录取机会。牛顿法:是通过求解目标函数的一阶导数为0时的参数,进而求出目标函数最小值时的参数。梯度下降法:是通过梯度方向和步长,直接求解目标函数的最小值时的参数。缺点:海森矩阵的逆计算复杂,代价比较大,因此有了拟牛顿法。优点:计算简单,实现容易。

2023-03-17 04:00:00 722

原创 DL debug:Assertion `index >= -sizes[i] && index < sizes[i] && “index out of bounds“` failed.详细解决过程

由于深度学习在GPU上运行,所以报错信息的位置可能不太准确,所以利用CUDA_LAUNCH_BLOCKING=1 来准确定位。

2023-03-16 10:17:51 9914

原创 山东大学机器学习实验2

但是应该根据数据的规模选择正规方程解法和梯度下降解法,吴恩达教授指出,如果数据集规模小于一万,则应该选择正规方程解法,数据集规模大于一万,则应该选择梯度下降法。根据实验中多次选择不同的学习率,从画出的图像种可以清楚的知道:若学习率太小,则会需要迭代很多次才能到达最佳,这其中的时间太漫长。若学习率太大,则会跨过最佳值,经过反复迭代可能会远离最佳值,最后不会收敛。由上图可知,当alpha很小时,损失函数收敛比较慢,需要很长时间才能到达最小值,而alpha=1时,损失函数收敛很快,所以是个不错的学习率。

2023-03-16 07:00:00 1232

原创 paper总结(8)FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling

FixMatch和其他流行的SSL算法(如伪标记和无监督数据增强(UDA))的缺点是,它们依赖固定的阈值来计算无监督损失,只使用预测置信度高于阈值的无标记数据。虽然该策略可以确保只有高质量的无标记数据有助于模型训练,但它忽略了相当多的其他无标记数据,特别是在训练过程的早期阶段,只有少数无标记数据的预测置信度高于阈值。然而,与其他现代SSL算法一样,FixMatch使用预定义的所有类的常数阈值来选择有助于训练的未标记数据,没有考虑到不同类的不同学习状态和学习困难。

2023-03-16 04:00:00 6468

原创 山东大学NLP实验2

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。利用给定的中英文文本序列(见Chinese.txt 和 English.txt),分别利用以下给定的中英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析,将实验过程与结果写成实验报告,实验课结束后提交。

2023-03-15 08:00:00 9613

原创 山东大学机器学习实验1

y值是以米为单位测量的高度,x值是与身高对应的男孩的年龄。每个身高和年龄元组在我们的数据集中构成了一个训练示例(x(i),y(i)。关于学习率的问题,在这里总结一下。由于刚开始接触梯度下降,上网看了一些教程和吴恩达教授的讲解,感觉明白了梯度下降的含义,弄明白了公式的意义,也学到了一些技巧,比如特征缩放,和如何选取学习率,变量应该同时更新值等等。通过本次实验,熟悉了建立线性回归模型的基本流程,掌握了梯度下降的方法,课后也学习了基本matlab知识,感觉对自己的帮助很大,希望之后的实验能够更准确的做出来。

2023-03-15 04:00:00 2010

原创 山大信息检索期末(含2022级)

山大信息检索期末

2023-03-14 08:00:00 5873

原创 山大NLP实验1

这样的话,我们统计的时候,就可以仅统计 P(a|b)形式的词频就好了,因为 P(begin abc end) = P(begin)P(a|begin)P(b|a)P(c|b)P(end|c)。所以可以写成 P(begin abc end) = P(a|begin)P(b|a)P(c|b)P(end|c)。解决:一维列表传入使用list.copy(),二维字典传入使用 copy.deepcopy(dict)问题2:由于这里是对词进行处理,可能相同的词存在不同的大小写,而且对于句子中的标点符号该怎么处理?

2023-03-14 04:00:00 1996

原创 山大计算机视觉实验2

bgr.ptr(0)[n]得到的是一个像素点内某个通道的值,因为三通道图像一。号里的内容是访问方式,因为 RGB 图像中有 3 个通道各自的像素值,因此以 Vec3b。Mat 对象的 at 方法,其中(h,w)好理解,就是要访问的像素值得二维坐标,尖括。的方式来访问,即 3 个字节元素的 vector 向量,而灰度图只有一个元素,类型为。道的图像不一样,三通道的图像中一个像素点有 BGR 三个像素值,可以看下面的。很多时候,我们对图像处理时,要考虑它的邻域,比如 3*3 是我们常用的,

2023-03-13 16:20:25 1993

原创 山大计算机视觉实验1

如果使用的Mask是二值的,因此融合的图像不太自然,如果对Mask图做稍稍的羽化,效果就会好很多。图像合成和融合的几个基本的方法,包括cut-and-paste,alpha融合(Alpha融合是一个升级版的cut-and-paste),以及多频段融合。实验1.1利用了图像库的功能,实现从文件加载图像,并在窗口中进行显示的功能,利用常见的图像文件格png进行了测试,如下图所示:主要是利用imread函数读取图片位置,然后利用imshow函数显示图片。2.对Alpha Mask做合适的羽化,使得融合更自然。

2023-03-13 09:00:00 2136

原创 实时高分辨率视频抠像

的,即预测结果是 0-1 的任意值,而 segmentation 的预测结果则是 0 或 1 的整。下图是 MobileNetV3 的网络架构:large 和 small 的整体结构一致,区别就。只使用人类的图像,并将它们组合成 420/15 train/val 分割用于训练。和连接,ConvGRU 层只在一半的通道上操作。的 8 位可以表示的范围是 0-255,即 255 代表不透明(白色),0 表示完全透明。用预训练的 ImageNet 权重进行初始化,并使用 1e−4 学习率,而网络的其余部分。

2023-03-12 12:04:51 7354

原创 文本分类对比学习

在它们的发展中的一个关键见解是,监督表示学习应该包括学习两种量:一种是输入x在适当空间中的特征z,该特征z对于分类任务具有足够的区分性,另一种是该空间上的分类器,或者可替换地,作用于该空间的分类器的参数∈θ;辍学模型的训练阶段和推理阶段存在着不可忽视的不一致,即训练过程中随机抽样的子模型(由于辍学引起)与推理过程中的完整模型(没有辍学)不一致。具体地说,对于每个示例x,其θ的每一列都可以被视为具有注入的标签信息的特征空间中的x的扩展视图,或者被视为“标签感知的输入表示”。

2023-03-11 10:28:06 6660

原创 极市打榜总结

PRCV2022-极市计算机视觉算法应用技术挑战赛——徘徊检测赛题。

2023-03-10 11:45:04 6240

原创 机器学习保研复习

机器学习保研复习,面试高频

2023-03-09 11:56:57 10511 1

原创 paper总结(7)Twin Contrastive Learning for Online Clustering

paper

2022-10-09 23:48:08 7166

原创 paper总结(6)Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition

paper

2022-09-26 21:06:06 6802

原创 paper总结(5)FixMatch: Simplifying Semi-Supervised Learningwith Consistency and Confidence

paper

2022-09-24 23:55:29 6861

原创 paper总结(4)TSM: Temporal Shift Module for Efficient Video Understanding

paper

2022-09-24 11:15:07 6786

原创 paper总结(3)Contrastive Clustering

paper

2022-09-23 11:02:21 10538

原创 paper总结(2)Momentum Contrast for Unsupervised Visual Representation Learning

paper

2022-09-22 20:59:21 6652

山东大学深度学习期末复习资料,93菜鸡

山东大学深度学习期末复习资料,93菜鸡。 包含上课ppt,几套期末试卷以及自己的学习总结。 学弟学妹看了认真复习应该可以90+。加油

2023-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除