- 博客(245)
- 资源 (1)
- 收藏
- 关注
原创 【PaperReading】4. TAP
通过对掩码token上的分割和语义token上的概念预测进行联合优化,模型表现出强大的区域识别和定位能力。另一方面,CLIP通过在网规模的图像-文本对上进行对比学习,训练了一个识别基础模型,展示了在识别任务中强大的零样本能力。与依赖于精心收集或近似的区域-文本数据的先前方法不同,作者的方法使用来自SA-1B的详尽分割数据和CLIP对掩码和语言进行对齐。最后,他们强调,带有视觉提示的TAP模型充当了一个多功能的、位置感知的图像tokenizer,其中token化的区域特征可以直接用于提示因果语言建模。
2024-01-11 20:48:38
908
原创 【PaperReading】3. PTP
通过将PTP引入多个先进的VLP框架中,我们观察到在代表性的跨模态学习模型架构和多个基准测试中都取得了显著的改进。例如,PTP在MSCOCO数据集的图像-文本检索任务中,相对于ViLT基线,平均回忆率提高了5.3%,并且在类似的框架和数据量下取得了与ALBEF接近的结果。就是借助于检测模型和现有的caption模型对各个block进行简单的caption并生成这种固定格式的 prompt,帮助模型生成完备准确的描述,这种方法尤其对提高方位相关的描述有用。
2024-01-11 20:45:41
926
原创 【PaperReading】2. MM-VID
我们讨论了MM-VID的不同能力,例如基于脚本的问答、多模态推理、长时视频理解、多视频集分析、角色识别、扬声器识别和音频描述生成等。实验结果表明MM-VID在处理挑战性任务方面的有效性,包括理解长达一小时的视频、跨多集的分析、识别角色和发言者以及与视频游戏和图形用户界面的互动。提出了MM-VID,一个综合系统,结合了GPT-4V和专门的视觉、音频和语音工具,以促进高级视频理解。MM-VID从输入的视频文件开始,输出描述视频内容的脚本,使LLM能够实现各种视频理解功能。, 新加坡国立大学Show实验室。
2024-01-11 20:38:36
796
原创 ANSI 转义序列使用 - 定义终端打印字体的属性(颜色、粗体、斜体、背景等)
ANSI 转义序列是一种用于在控制台中输出格式化文本的标准。它由一系列以 ESC(ASCII 码 27)开头的字符组成,后跟一个或多个参数和一个字母,以指示需要执行的操作。ANSI 转义序列最初是为了在终端上输出彩色文本而设计的,但它们也可以用于设置文本样式、移动光标等。其中,\033 表示 ESC,等表示参数,表示指令字母。指令字母操作m设置文本属性H设置光标位置J清除屏幕K清除行s保存光标位置u恢复光标位置在参数中,分号用于分隔不同的参数。参数意义0。
2023-07-21 15:03:55
2783
原创 Failed to initialize NVML: Driver/library version mismatch (解决)
运行nvidia-smi报错
2023-07-19 15:03:19
1596
原创 【论文分享】Clothes-Changing Person Re-identification with RGB Modality Only
In this paper, we propose a Clothes-based Adversarial Loss (CAL) to mine clothes- irrelevant features from the original RGB images by penalizing the predictive power of re-id model w.r.t. clothes. Extensive experiments demonstrate that using RGB images
2022-10-18 10:25:20
778
原创 【论文笔记】PlenOctrees for Real-time Rendering of Neural Radiance Fields
该论文是结合了图形渲染领域常用的球谐函数(SH, Spherical Harmonics)和NeRF来建模的。首先应该了解NeRF.其次,应该读懂什么是球谐函数或者球面高斯函数.然后,我们都知道NeRF将ray marching上的x位置处的光照建模为density σ\sigmaσ 和 color ccc.在该论文中作者使用SH来建模位置x处的各个方向的光照情况,简单来说球谐函数可表示为多个基函数相加的形式,将所有基函数前面的系数拎出来就是所说的球谐函数的系数。这个系数是通过...
2022-07-06 18:02:39
2542
原创 (shorthand) pixelNeRF: Neural Radiance Fields from One or Few Images
支持a sparse set of views,甚至支持仅仅一个view,也可以进行novel view synthesis。在NeRF的基础上加上了2D view image features. 加上这个可以学习scene的先验信息。这样做的好处:一,泛化性好;二,收敛快。除了加上image feature 外,nerf部分也做了改变,在网络一开始的位置就将direction一并输入,因为作者认为multi-view case,view .........
2022-07-04 21:43:13
502
1
原创 EfficientNeRF阅读笔记
In this paper, we present EfficientNeRF as an efficient NeRF-based method to represent 3D scene and synthesize novel-view images. Although several ways exist to accelerate the training or testing process
2022-06-30 19:53:29
1146
原创 Survey summary for 3D pose estimatation
Survey summary for 3D pose estimatation[Survey paper] Deep Learning Methods for 3D Human Pose Estimation under Different Supervision Paradigms: A Survey我们关注的是 Multi-Person这一栏。
2022-06-23 11:38:06
511
原创 git 将自己的submodule分支和自己的主repo分支绑定
1. git clone -b mybranch 主repo2. 进入到主repo目录下执行:git clone -b mysubmodulebranch 自己建立的submoudle的地址3. git status查看对应的submodule是否为modified4. git add 子库的名字5. git commit -m “修改说明”6. git push origin 主repo的自己分支的名字...
2021-11-29 11:01:31
638
原创 代替scp支持不覆盖远程拷贝的命令-rsync
rsync -avzu --progress [src] [dest]## for example:rsync -avzu --progress root@202.112.23.12:/ssd/viz_indi_recs/ ./viz_indi_recs
2021-08-25 15:00:47
731
原创 git 上传自己的分支代码或者新建一个分支 和 更新master分支到自己的分支
git 上传自己的分支代码或者新建一个分支 和 更新master分支到自己的分支该博客解决:多人共同维护一个git 工程,怎么维护自己的分支,别人更新了主分支我们又怎么将自己的分支保持最新?1. git 上传自己的分支代码或者新建一个分支1. 下载自己的分支到本地git clone -b mybranchname *.git此处 * 为工程地址如果还没有自己的分支,可以先git clone master,然后现在本地新建分支git clone -b master *.gitgit
2021-08-16 11:12:23
11475
原创 在github/gitlab上下载单个文件
在github/gitlab上下载单个文件参考自:这里mkdir mycodecd mycodegit initgit remote add -f origin xxx.git #xxx是要下载的仓库git config core.sparsecheckout true。# 将sparsecheckout设为trueecho 仓库名/子文件夹/要下载的文件名(不带后缀) >> .git/info/sparse-checkoutgit pull origin master # 拉取
2021-07-13 10:18:33
1367
原创 python保存文件命名-固定数字位数
import osfor i in range(5): f = open('./test_{:04}.txt'.format(i), 'w') f.close()这里:04就代表4位数
2021-05-20 10:24:15
1469
原创 ml-suite-1.5环境安装以及实验记录(vcu1525平台)
ml-suite-1.5环境安装记录1. 下载并安装xrt和shell firmware(1)安装xrtwget https://www.xilinx.com/bin/public/openDownload?filename=xrt_201802.2.1.127_16.04-xrt.deb && sudo apt install ./*.deb(2)安装shell firmwaredownload(3) 运行sudo bash ./xrt-install.sh2. 安装
2021-04-21 15:13:01
597
原创 shell脚本中执行conda activate envs命令注意事项
1. 使用source + 绝对路径在脚本中的写法示例:source ~/anaconda3/bin/activate pytorch这里按照你自己的安装路径写。我安装在了/home下2. 运行脚本一定使用bash,source才可使用示例:bash xxx.sh不能使用 sh...
2021-04-02 11:34:30
5321
原创 ubuntu如何将应用程序添加到 open with中显示
最近我在ubuntu中安装了typora,但是对于md文件不能右键使用typora打开,open with中也找不到,所以,接下来把typora添加到open with中。第一步,创建typora.desktop终端输入:cd ~/.local/share/applicationsls查看有没有typora.desktop,如果没有则输入下面命令创建一个:touch typora.desktop第二步,修改typora.desktop打开typora.desktop将Exec=...
2021-01-15 16:36:22
841
1
转载 linux下信号量(semaphore)的使用例程
linux下信号量(semaphore)的使用例程semaphore是系统中的东西,所以不同系统中包含头文件不同,在linux中包含<semaphore.h>例程一:程序说明:完成一个多线程demo, 保证三个线程执行顺序, 即顺序打印a,b,c.#include <iostream>#include <semaphore.h>#include <memory>#include <thread>using namespace
2020-11-19 12:02:30
5085
原创 寒武纪算法开发岗位二面手撕代码题目详细记录
寒武纪算法开发岗位二面手撕代码题目记录题目:给定一个数组,求能组成的和中,最小不可能的和。例如:[1,2,3,5],最小不可能的和为12。解答:就是一个二维动态规划,下面的答案是我面试完下来自己又重新做的,当时没做出来。主要就是一个二维dp table,然后dp[i][j]表示数组中前i个数,组成和为j是否可能出现。填表规则:data为所给数组。dp[i][j] 有三个来源决定:上一行当前列的值;上一行从当前列往前推data[i],例如,这里第二行data[i]=2;则就是是看dp[
2020-11-14 20:10:21
581
转载 zoomit的使用 - 一个可以直接在演示的时候写字的软件
zoomit的使用 - 一个可以直接在演示的时候写字的软件ZoomIt的使用方法ZoomIt是一款非常强悍的教学辅助软件,具有屏幕放大、屏幕标注、计时功能,软件占用空间只有0.2M,且无需安装。下面我介绍一下此软件的使用方法。1.屏幕放大Ctrl+1进入放大模式,此时屏幕默认放大2倍,视野中显示屏幕的1/4。滚动鼠标滚轮或者通过上下方向键可以改变放大比例。移动鼠标可以改变放大区域。单击鼠标右键或Esc退出。2.屏幕标注在屏幕放大状态下,单击鼠标左键进入标注模式。按下鼠标左键的同时移动鼠标,可以标
2020-11-12 17:36:09
4138
转载 vi常用命令使用方法
1. vi编辑器有3种模式:命令模式、输入模式、末行模式。掌握这三种模式十分重要:命令模式:vi启动后默认进入的是命令模式,从这个模式使用命令可以切换到另外两种模式,同时无论在任何模式下只要按一下[Esc]键都可以返回命令模式。在命令模式中输入字幕“i”就可以进入vi的输入模式编辑文件。输入模式:在这个模式中我们可以编辑、修改、输入等编辑工作,在编辑器最后一行显示一个“–INSERT–”标志着vi进入了输入模式。当我们完成修改输入等操作的时候我们需要保存文件,这时我们需要先返回命令模式,在进入末行模式保
2020-10-24 10:44:32
2122
原创 tensor.gather()的使用(pytorch)
tensor.gather的使用(pytorch)tensor.gather(dim, indexs)功能: 在dim维度上,按照indexs选择元素,返回一个和indexs维度相同大小的tensor。它和torch.gather功能是一样的。torch.gather()官方文档注意: 这里indexs必须也是Tensor,并且维度与input相同例子:>>>import torch>>>a = torch.Tensor([[1,2,3,4,5,6
2020-10-23 15:41:06
7526
2
原创 OpenCV(4.2.0) /io/opencv/modules/imgproc/src/color.cpp:182: error: (-215:Assertion failed) !_src.emp
OpenCV(4.2.0) /io/opencv/modules/imgproc/src/color.cpp:182: error: (-215:Assertion failed) !_src.empty() in function 'cvtColor'解决:图片格式不对应造成,本来图片格式为jpg,但是读取的时候写成了.png.
2020-10-22 22:32:52
2979
2
原创 使用lap.lapjv实现线性分配(我主要用来作为匈牙利算法的实现)
使用lap.lapjv实现线性分配(我主要用来作为匈牙利算法的实现)lapjv算法是一种最佳任务分配方法,可以应用的地方很多。需要输入一个分数方阵,最终获得一列最佳分配数值。如 n 个数值,要实现其最佳的配对,那么配对就需要根据n*n的一个分数方阵来计算,以总体最小代价实现任务分配,每一个数值不会重复分配。这里不讨论如何构建分数矩阵。如下图,依据分数矩阵,以最小代价给每一个工人分配任务。代码测试:>>> import lap>>> from lap import
2020-10-22 16:26:26
7302
3
原创 python slice函数使用
功能: 对迭代对象进行切片。使用:定义slice范围和步长使用定义好的slice进行切片例子:slice(start, stop, step)a = list(range(1, 10))s = slice(2, 7, 2) # 开始idx=2,结束idx=6,步长为2,注意区间是左闭右开b = a[s]bOut[56]: [3, 5, 7]...
2020-09-29 22:23:00
1132
原创 python中 堆heapq以及 队列queue的使用
python中 堆heapq以及 队列queue的使用1. 堆heapq的使用################################# 堆 ###############################import mathfrom io import StringIOdata = [19,9,4,10,11]def show_tree(tree, total_width=36, fill=' '): output = StringIO() last_row = -1 for
2020-09-26 18:11:10
550
原创 c++ string.find()参数说明
c++ string.find()参数说明int find(string s, int m, int n)假设母字符串为str.该函数实现的是在 str 中的第m个位置往后开始查找目标字符串s的前n个字符,返回找到的第一个出现字符串首字母的位置,若没找到,则返回-1.说明:第一个参数是要查找的字符串s.第二个参数是母字符串中查找的起始位置。第三个参数是目标字符串的前n个字符。或者说第三个参数为指出字符的个数。示例:#include<iostream>#include<
2020-09-24 16:00:46
7074
2
原创 手打SVM公式推导以及利用对偶学习算法求解全过程
手打SVM公式推导以及利用对偶学习算法求解全过程视频地址以下是看完 视频的笔记,涉及 SVM公式的推导、求解全过程:svm三宝:间隔、对偶,核函数。SVM分为:硬间隔SVM、软间隔SVM、核函数。公式推导:{maxmargin(w,b)s.t.yi(wTxi+b)>0,(i∈1,2,...,N)\left \{\begin{aligned}& max margin(w, b) \\& s.t. \quad y_i(w^Tx_i+b) > 0, (i \in
2020-09-24 11:44:46
507
原创 markdown 在字母正下方插入下标
$\underset {\theta}{min}$效果:minθ\underset {\theta}{min}θmin
2020-09-24 10:53:45
8127
DDR3L 手册
2018-01-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅