自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

暮日落流年的博客

记录学习生活中的一些所思、所想

  • 博客(164)
  • 收藏
  • 关注

原创 如何处理.nii文件

最近读了一篇论文[1],是利用深度学习进行MRI图像重建的,作者在github[2]上提供给我们的他的实现代码,他使用的一个MRI分割比赛的数据集[3],但是将数据集下载下来发现全部都是.nii格式的文件,用普通的方法也是打不开的,经过一个星期的摸索,也是大概了解了如何读取以及处理.nii文件。 1. NIFTI出现原因.nii文件是NIFTI格式的文件,出现的原因是原来一种图像格...

2018-05-30 16:46:52 57823 61

原创 VLM系列文章7-Molmo and PixMo

Molmo 是最先进的开放式多模态人工智能模型系列。在广泛的学术基准和人类评估中,我们最强大的模型缩小了开放系统与专利系统之间的差距。我们较小的模型性能优于其 10 倍大小的模型。

2024-09-27 11:21:51 988

原创 VLM系列文章6-Cambrian-1

以视觉为中心的多模态大模型Cambrian-1,算是近期比较新的工作202406。

2024-07-30 17:04:52 392

原创 VLM系列文章5-Idefics2

本文继续探究构建VLM的关键组件是什么,从pre-trained models, architecture choice, data, and training methods 角度出发进行控制变量法实验;并提出了Idefics2系列模型,同时提出了一个新的SFT数据集。

2024-07-30 16:54:28 541

原创 VLM系列文章4-Prismatic VLMs

这篇文章基于 LLaVA 1.5 的框架,对于视觉大语言模型 (Vison Language Model) 的训练、架构等设计方案进行了消融实验。通过在一系列视觉语言的测试集上综合比较,作者得出了在这一框架下的最优的训练策略。其探索了以下几个维度。

2024-07-30 16:43:05 526

原创 VLM系列文章3-VILA(On Pre-training for Visual Language Models)

llava中ICL能力?是否需要交错文本进行训练?纯文本能力退化问题?

2024-07-30 16:32:24 605

原创 VLM系列文章2-LLaVA1.5

原始的llava仍旧存在一些问题,比如说如何处理高分辨率图像(如OCR任务可能需要较大的分辨率才能很好地解决),PT、SFT数据集选择什么样的?模型的scaling能力如何?本篇文章主要是原始llava的一个很好地扩展。

2024-07-30 16:05:43 744

原创 VLM系列文章1-LLaVA

VLLM经典工作。

2024-06-26 17:18:25 931

原创 VLM系列文章导言

随着LLM技术的发展,VLM相关技术也发展较快。最近涌现的相关工作如LLAVA(1.5、1.6、Next)以及InterVL系列、MiniCPM系列。这些技术发展很快,有必要对相关的工作进行回顾总结。 比如PT、SFT以及RLHF相关技术,大模型的幻觉问题,模型量化、部署技术(AWQ、llm-deploy)等都是相关研究方向。

2024-05-30 11:29:33 191

原创 小样本学习(FSL)系列文章

小样本学习相关

2024-05-30 11:21:42 91

原创 自监督(SSL)系列文章导言

自监督学习导言,包括早期的一些MOCO、以及近两年涌现的DINO系列、EVA系列等。

2024-05-30 11:17:47 121

原创 fontTools库来检测字体文件中是否包含某字符

在使用字体渲染某些字符时,有可能渲染出空白或者“口”字形,原因在于该字体文件中不包含该字符的字形。可能的原因包括:字符不在字体的cmap表中(cmap表是字体文件声明的支持字符表);字符不在字体的glyf表中(glyf表是字体文件中实际包含的字形,类似svg描述);未知原因,需要人工进行查看,有些字体比较坑,缺失的字体就随便填个glyf。第一种原因的检测方法:首先我们查看TTFont定义:ttFont: Read/write OpenType and TrueType fonts可选的.

2021-11-30 10:15:53 3621

原创 python:lru_cache装饰器

缓存是什么?缓存是一门优化技术,就是将数据存放在比访问源数据成本更低、速度更快的位置上。 比如别人在微信上发送一个文件给你,你第一次访问可能要下载这源文件,然后下载到本地,等你下一次在打开它的时候,其实是从本地打开的。 那么这里的本地存放位置相当于是“缓存”,它比再去访问源文件,比如要下载,速度更快、成本更低。1. lru_cache装饰器是什么了?我们可以用一个字典来模拟这种策略,比如定义一个dict,如果该元素不在dict中,我们就push进去,但是这样就会存在一个问题,这个dict的数目会越来.

2021-11-29 17:28:47 1688

原创 caffe学习

简单的入门一下caffe参考Deep learning tutorial on Caffe technology : basic commands, Python and C++ code.Caffe TutorialCSDN:Caffe以后可能会用到caffe这个框架,姑且先学习一下。

2020-07-02 16:53:51 1099

原创 ubutu16.04 python3.6 opencv3.2 caffe(CPU) 填坑指南

最近由于需要,安装一下caffe,由于手边暂时没有gpu,所以在自己笔记本先安装一下cpu版本的caffe。由于caffe是属于比较老的框架,然后对python 2.7支持比较好,或者python3.5以下也是可以的,但是由于我们的python是3.6,以及tensorflow == 1.6,因此我们尝试在python 3.6的情况下,安装caffe CPU版本。系统版本:ubutu 16.04anoconda 4.3.30python 3.6opencv 3.2.0caffe 1.0.0.

2020-06-30 23:23:33 600 1

原创 ubutu16.04卸载opencv2安装opencv3

最近在安装caffe,然后caffe安装失败,最后定位到可能出现的错误原因就是opencv版本。虽然不知道什么时间安装了opencv2,现在发现重新安装opencv3并不是那么的容易,也是花了几个小时才安装好了,这里记录以下填坑的step。系统版本:ubutu 16.04anoconda 4.3.30python 3.6opencv 3.2.0caffe 1.0.00. 前言这里我们安装opencv3是为了后面安装caffe服务的。由于caffe是属于比较老的框架,然后对python.

2020-06-30 21:45:10 625

原创 OCR一些基础知识

OCR基础。RNN 原理。循环神经网络(RNN)原理通俗解释CTC原理。CTC算法详解CRNN原理。CRNN算法详解参考:机器学习遇到好的在补充,才入门,感觉学的东西还蛮多的。

2020-05-14 14:46:00 925 2

原创 目标检测 Mask RCNN

论文: Mask R-CNN代码:一. Facebook: facebookresearch/Detectron二.Tensorflow: CharlesShang/FastMaskRCNN三.Keras and TensorFlow: matterport/Mask_RCNN四.MXNet:TuSimple/mx-maskrcnn五.Pytorch:multimodallearning/pytorch-mask-rcnn论文解析:知乎:令人拍案称奇的Mask RCNNCSDN:Mask

2020-05-11 11:35:14 574

原创 目标检测 RetinaNet

此篇论文获得了ICCV最佳学生论文奖,提出了Focal Loss。论文: Focal Loss for Dense Object Detection代码:一. Caffe2: facebookresearch/Detectron二. Keras: fizyr/keras-retinanet三. Pytorch: kuangliu/pytorch-retinanet论文解析:知乎:简单的交叉熵损失函数,你真的懂了吗?知乎:物体检测之Focal Loss及RetinaNetCSDN:论文.

2020-05-11 10:44:27 528

原创 目标检测 FPN

论文: Feature Pyramid Networks for Object Detection代码:一. Pytorch: jwyang/fpn.pytorch二. Tensorflow: yangxue0827/FPN_Tensorflow论文解析:FPN posterCSDN:FPN详解CSDN:FPN(feature pyramid networks)算法讲解

2020-05-09 15:38:42 272

原创 目标检测 R-FCN

下面是R-FCN的学习论文:R-FCN: Object Detection via Region-based Fully Convolutional Networks代码:一. Matlab: daijifeng001/R-FCN二. Pytorch: ShadowXZT/pytorch_RFCN论文解析:CSDN:R-FCN论文解读及难点理解CSDN:R-FCN算法及Caf...

2020-04-30 15:51:29 314

原创 OCR学习-导语

OCR 学习。1. 自己的博客2. 其他参考   按照这个仓库hwalsuklee/awesome-deep-text-detection-recognition介绍的学习。2.1 综述性文章:Scene Text Detection and Recognition: Recent Advances and Future TrendsScene ...

2020-04-30 15:15:47 253

原创 目标检测-SSD

下面是SSD的学习论文:SSD: Single Shot MultiBox Detector代码:一. caffe: weiliu89/caffe论文解析:知乎:SSD目标检测CSDN:目标检测算法之SSDCSDN:SSD原理解读-从入门到精通CSDN:最详细的目标检测SSD算法讲解以后有什么在补充的,继续更新。...

2020-04-26 10:41:10 512

原创 目标检测-yolo系列

接下来就是Yolo系列1. YOLO v1论文:You Only Look Once: Unified, Real-Time Object Detection代码:一. Tensorflow: hizhangp/yolo_tensorflow二. Darknet:darknet/yolo代码解析:YOLO源码解析论文解析:知乎:图解YOLOCSDN:YOLO(You Onl...

2020-04-23 10:38:41 425

原创 目标检测-R-CNN系列

首先是对R-CNN系列进行学习,其包含了R-CNN, Fast R-CNN, Faster R-CNN。1. R-CNN在理解R-CNN代码的之前,需要了解一些前期的知识,包括了Selective Search,而这个又是以这个Graph-Based Image Segmentation为基础的,所以我们首先先对这二个有所了解。1.1 Efficient Graph-Based Im...

2020-04-23 10:36:51 457

原创 目标检测学习-导语

最近在学习OCR,而目标检测作为其基础当然需要学习一下了。因为这些前人已经有很多博客很详细的进行介绍了,所以我这里只是收集一些资料作为自己以后查阅。如果大家喜欢看视频的话,可以看这个网上找到的视频,包含了目标检测的相关介绍,SIFT以及HOG特征介绍,R-CNN系列,YOLO系列,SSD等等。视频链接:bilibili:人工智能_目标检测以及一个目标检测的深度学习仓库hoya012/deep...

2020-04-23 10:32:39 418

原创 Zotero 5.0 + 坚果云同步盘 + papership 配置教程

最近需要一个文献管理工具,然后网上推荐使用Zotero,于是乎装一下吧。原生的Zotero存储空间只有300M,那么就需要第三方代存文件了,使用坚果云或者百度云,由于目前百度云不太支持这种操作了,只能选择坚果云了。另外,为了在IOS端或者IPAD端阅读文献,你可能还需要一个papership软件。所以,这篇博客记录一下三者联合安装的过程,中间可能会需要遇到一些问题,记录下来填坑指南。1. 安...

2020-04-13 10:03:29 28461 7

原创 Latex排版大括号让其左对齐

用Latex写论文遇到一个问题,就是用大括号插入多行公式,但是默认是居中对齐,虽然不是很难的问题,但这里也记录一下。1. 问题首先使用在线Latex网站插入大括号多行公式的时候,出现问题:然后发现公式是居中对齐的,现在目标是让其变成左对齐。2. 问题解决首先使用在线Latex,加入我们用大括号插入一个三行一列的公式,其中代码如下:\left\{\begin{matrix} a =...

2020-03-17 10:05:56 29326 5

原创 python实现图像拼接

最近写论文遇到一个问题,就是我们使用python matplotlib.pyplot包中subplot创建两个子图,但是创建的子图并不符合我们的预期需求,于是乎记录下来其中的填坑指南。1. 初始问题       假设我们现在我们有以下局部代码,假设这里的A,B是提前已知的np.array数组,A shape=(128, ...

2020-03-07 10:13:13 6201

原创 matlab报错:尝试将 SCRIPT xxx 作为函数执行

最近在跑matlab代码,今天在运行别人程序发现了一个错误,尝试将 SCRIPT xxx 作为函数执行, 这里记录自己的填坑指南,也方便自己和大家以后查阅。1. 问题出现在运行某代码的时出现错误, **尝试将 SCRIPT xxx 作为函数执行。**如下图所示:2. 猜想问题出现的可能性经过网上的搜索,发现列举了两种可能的错误:文件名和函数名重名所致,只需将函数重命名函数文件的...

2019-12-30 15:17:54 61510 16

原创 GAN原理再探

虽然自己很早就接触到了GAN,但是基本上都是停留在了解基本概念的阶段。如果别人问我什么是GAN,我可能会说:首先大家都知道GAN有两个网络,一个是generator,一个是discriminator,从二人零和博弈中受启发,通过两个网络互相对抗来达到最好的生成效果。如果在具体一点,可能会列举警察和小偷的故事,警察尽量判断是否为真,小偷尽量蒙骗警察。但是总是感觉缺少点什么,如果别人问我,为什么GA...

2019-09-15 21:39:28 424

原创 c++ 按分割符(忽略多次出现)切割string字符串

最近在做各家公司的笔试题,每次花在数据输入上时间很多,尤其是遇到字符串问题,总是卡壳。而其中最麻烦的就是输入一串字符串,以分隔符进行分隔,比如逗号,忽略出现多次的情况。因为C++不像python和Java有很好的库函数帮助我们,唯一可用的Boost库不能用,这也强迫我们使用自己定义的split函数了。所以,这篇文章也是自己的一个总结,希望自己以后可以查阅,也可以帮助其他需要的同学。1. 问题...

2019-09-09 10:20:30 4068

原创 C++实现统计某个字符在字符串出现的次数,忽略大小写

1. 题目描述写出一个程序,接受一个由字母和数字组成的字符串,和一个字符,然后输出输入字符串中含有该字符的个数。不区分大小写。输入描述:第一行输入一个有字母和数字以及空格组成的字符串,第二行输入一个字符。输出描述:输出输入字符串中含有该字符的个数。输入:ABCDEFA输出12. 思路这道题直观的思路是可以利用STL的count函数,但是忽略大小写直接套用就...

2019-08-16 11:09:44 7976

原创 C++打印一个字符串的全部排列,要求不要出现重复的排列

1. 题目打印一个字符串的全部排列,要求不要出现重复的排列.比如给字符串abc, 那么需要我们输出abc,acb, bac, bca, cab,cba.2. 思路我们主要是借助递归思想.将每个元素都与子数组的第一个元素交换再求剩余部分的全排列求完后再交换会来,复原原数组,这样是防止出现重复元素一开始看网上的代码实在是不知所云,后来去网上找个视频,感觉不错.[算法教程] 全排列...

2019-07-20 20:32:41 1661 1

原创 C++实现一个数据流中,随时可以取得中位数

1. 题目描述Leetcode295: 数据流的中位数中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。例如,[2,3,4] 的中位数是 3[2,3] 的中位数是 (2 + 3) / 2 = 2.5设计一个支持以下两种操作的数据结构:void addNum(int num) - 从数据流中添加一个整数到数据结构中。double findMedian() -...

2019-07-19 17:25:19 1140

原创 C++实现会议安排问题(贪心问题)

1. 题目描述一些项目要占用一个会议室宣讲,会议室不能同时容纳两个项目的宣讲。 给你每一个项目开始的时间和结束的时间(给你一个数组,里面 是一个个具体的项目),你来安排宣讲的日程,要求会议室进行的宣讲的场次最多。返回这个最多的宣讲场次。数学描述:如下图所示我们给定三个数组,图中表示三条线段,线段的两个端点分别代表的是起始时间和终止时间。注意:如果上一个活动在t时间结束,下一个活动最早应...

2019-07-19 15:47:32 3024 1

原创 C++项目最大收益(贪心问题)

1. 题目描述输入: 参数1,正数数组costs; 参数2,正数数组profits;参数3,正数k; 参数4,正数m;costs[i]表示i号项目的花费, profits[i]表示i号项目在扣除花费之后还能挣到的钱(利润) ,k表示你不能并行、只能串行的最多做k个项目 m表示你初始的资金。说明:你每做完一个项目,马上获得的收益,可以支持你去做下一个项目。输出: 你最后获得的最大钱数。2...

2019-07-19 11:22:52 2531

原创 C++实现切金条问题(贪心问题)

1. 题目描述一块金条切成两半,是需要花费和长度数值一样的铜板的。比如长度为20的金条,不管切成长度多大的两半,都要花费20个铜板。一群人想整分整块金条,怎么分最省铜板?例如,给定数组{10,20,30},代表一共三个人,整块金条长度为10+20+30=60. 金条要分成10,20,30三个部分。如果, 先把长度60的金条分成10和50,花费60 再把长度50的条分成20和30,花费50 一共...

2019-07-19 10:06:49 1242

原创 c++实现图的广度优先搜索(BFS)和深度优先搜索(DFS)

1. 基本概念图分为无向图和有向图。与一个顶点相邻接的顶点数叫做该顶点的度。在有向图中,进入一个顶点的弧叫做该顶点的入度,从一个顶点发出的弧叫做该顶点的出度。在无向图中,若图中任意一对顶点都是连通的,则称此图是连通图。在有向图中,若任意一对顶点u和v间存在一条从u到v的路径和从v到u的路径,则称此图是强连通图。无向图的一个极大连通子图称为该图的一个连通分量。有向图的一个极大强连通子...

2019-07-18 10:31:04 4488

原创 c++出现double free or corruption (fasttop)

今天在写图的相关的程序,写着写着就出现了一个问题,如图。1. 问题代码这里我们的目标主要是想要是利用邻接矩阵创建一个图,主要代码主要是参考这篇博客【C++】图的定义及性质#include <iostream>#include <climits>enum GraphKind {DG, UDG, DN, UDN};/* directed graph, undi...

2019-07-16 21:39:00 19190 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除