自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

呆呆的猫的博客

计算机视觉算法和应用

  • 博客(608)
  • 资源 (6)
  • 收藏
  • 关注

原创 【多模态】42、LLaVA-UHD | 支持任意纵横比和大分辨率图像输入的 LLaVA

本文主要介绍 LLaVA-UHD

2024-07-19 17:15:10 1000

原创 【多模态】41、VILA | 打破常规多模态模型训练策略,在预训练阶段就微调 LLM 被证明能取得更好的效果!

本文主要介绍 VILA

2024-07-08 18:36:57 849

原创 【多模态】40、ConvLLaVA | 使用 ConvNeXt 为 LLaVA 实现更高分辨率的输入

本文主要介绍多模态模型 ConvLLaVA

2024-07-08 16:43:11 822

原创 【多模态】39、HRVDA | 基于高分辨率输入的高效文档助手(CVPR2024)

本文主要介绍多模态模型 HRVDA

2024-06-18 17:17:29 942

原创 【多模态】38、DT-VQA | 专为提升多模态大模型的密集文本场景能力的数据集

本文主要介绍 DT-VQA

2024-06-07 15:56:17 900

原创 【多模态】37、TextSquare | 借助 Gemini-Pro 通过四个步骤来生成高质量的文本问答数据

本文主要介绍 TextSquare

2024-06-07 10:54:41 645

原创 【NLP】2、大语言模型综述

本文主要对大语言模型做简单介绍

2024-06-06 18:36:27 914

原创 【多模态】36、ShareGPT4V | 借助 GPT4V 的能够来生成更丰富的 caption 用于提升 LMM 模型的能力

本文主要介绍 ShareGPT4V

2024-06-06 17:06:48 835

原创 【多模态】35、TinyLLaVA | 3.1B 的 LMM 模型就可以实现 7B LMM 模型的效果

本文主要介绍 TinyLLaVA

2024-06-06 12:00:01 1012

原创 【多模态】34、LLaVA-v1.5 | 微软开源,用极简框架来实现高效的多模态 LMM 模型

本文主要介绍多模态大模型 LLava-v1.5

2024-06-02 19:28:18 1518

原创 【多模态】33、mPLUG-Owl | 阿里猫头鹰模型,引入调制模块来强化图像和文本的对齐

本文主要介绍阿里猫头鹰模型 mPLUG-Owl 模型

2024-05-17 14:30:18 1199

原创 【多模态】32、TextMonkey | 一个 OCR-Free 的专门针对文档理解的大型多模态模型

本文主要介绍多模态模型 TextMonkey

2024-05-16 17:30:16 902

原创 【多模态】31、Qwen-VL | 一个开源的全能的视觉-语言多模态大模型

本文主要介绍 Qwen-VL 模型

2024-05-15 18:12:44 1454

原创 【多模态】30、Monkey | 支持大尺寸图像输入的多任务多模态大模型

本文主要介绍多模态大模型 Monkey

2024-05-14 17:27:52 1089 2

原创 【多模态】30、GPT4V_OCR | GPT4V 在 OCR 数据集上效果测评

本文主要介绍 GPT-4V 在 OCR 任务上的测评效果

2024-05-10 16:25:13 964

原创 【多模态】29、OCRBench | 为大型多模态模型提供一个 OCR 任务测评基准

本文主要介绍 OCRBench

2024-05-05 22:47:52 2039

原创 【设计模式】21、mediator 中介者模式

作为中介者, 协调各对象

2024-05-04 15:34:04 275

原创 【设计模式】20、command 命令模式

在 client 和 object 之间增加一个 command 层, 可以延迟执行 或 远程执行

2024-05-04 15:33:50 222

原创 【设计模式】19、memento 备忘录模式

保存状态快照,随时恢复指定版本

2024-05-03 10:50:45 316

原创 【设计模式】18、visitor 访问者模式

visitor 模式强调的是 "访问" 的动作如果 visitor 希望访问 interviewee, 可以让 interviewee 提供 accept() 方法, 该方法内部调用的还是 visitor.visit() 方法好处是: interviewee 可以方便扩展增加更多 visitor 的访问

2024-05-03 10:50:19 224

原创 【设计模式】17、iterator 迭代器模式

为了集合数据的安全性, 或方便迭代, 可以用迭代器接口. 屏蔽复杂的内部逻辑, 外部只能使用迭代器遍历

2024-05-02 17:01:34 690

原创 【设计模式】16、state 状态模式

在不同的情况下, 执行对应的操作. 通常是由 if else 实现的. 但随着需求扩张, 代码无法维护可以描述出各种状态(即各种 if 的条件), 把状态切换的控制流, 和状态的具体操作的业务流, 拆分开.通常 Context 类持有 state 接口, state 接口有很多实现每种 state 的实现, 都持有 Context 类的反向引用用于切换状态, 并只负责当前状态需执行的操作

2024-05-02 14:15:04 1413

原创 【设计模式】15、chain of responsibility 责任链模式

如果需按顺序, 执行一系列步骤, 可用责任链.链条上的每个步骤, 都持有下一个步骤的引用, 当自身步骤执行完毕后, 执行下一个步骤.在运行时, client 也可以主动编辑 链的顺序.核心是, 各步骤都实现相同的接口.

2024-05-01 22:19:18 859

原创 【设计模式】14、strategy 策略模式

需求: client 知道很多不同的策略, 希望在运行时切换.场景示例: 就像高德地图一样, 导航到某地, 用户可选择其一: 地铁, 自驾, 打车, 自行车 等.实现方式: 定义策略接口, 上层组合该接口. client 在运行时切换 具体策略.

2024-04-30 22:17:38 1134 1

原创 【设计模式】13、template 模板模式

如果是一套标准流程, 但有多种实现, 可以用 template 模板模式.例如, 如果要开发一个数据挖掘程序, 支持输入 word, csv, pdf. 他们其实是相同的流程(如打开文件, 读取数据, 转换数据, 输出数据).因为每种类别的流程相同, 所以每种类别的实现有很多重复代码.为了消除这些重复代码, 可以定义基类, 实现通用的逻辑, 如果有个性化的逻辑再覆盖.

2024-04-30 22:17:22 511

原创 【问题解决】DDP | 如何使用 DDP 模式来训练模型

本文主要介绍如何使用 DDP 模式训练模型

2024-04-26 14:46:15 921

原创 【设计模式】12、observer 观察者模式

发布订阅模式, client 都可以向 broker 注册, broker 管理所有 connection, 当 broker 收到某事件时, 广播给所有 clients.- 各种消息队列, 如 kafka, redis stream 都是这种结构 - websocket server, live video streaming server 也都是这样的

2024-04-25 22:48:49 681 3

原创 【设计模式】11、flyweight 享元模式

大量重复的对象, 如果很消耗资源, 没必要每次都初始化, 可以共用, 共享. 这就是 flyweight 享元模式.各种池技术: 线程池, 数据库连接池, http 网络连接池, 都是应用场景

2024-04-22 22:15:30 452

原创 【设计模式】10、composite 组合模式

树状结构, 适合用组合模式, 不断递归, 对各子节点求和, 直到叶子节点为止.例如, 一个大盒子, 内可以放置物体, 或若干小盒子. 而每个小盒子又同理.

2024-04-22 12:54:35 616

原创 【设计模式】9、facade 外观模式

如果有一个复杂的系统, 内部有很多子系统, 可以用 facade 封装一层, 只暴露出用户关心的简单接口.

2024-04-22 12:13:34 601

原创 【设计模式】8、adapter 适配器模式

通常用于老旧系统, 或第三方系统, 提供一层适配器或插件, 做协议转换PS: 如果开发新系统, 各层之间的解耦, 成为 bridge 桥接模式. 而如果是老系统则称为 adapter 适配器模式. 本质是一样的. 都是通过添加中间层实现的.

2024-04-21 22:26:22 269

原创 【设计模式】7、decorate 装饰模式

如果希望增强行为,可以使用 decorate 模式。且支持嵌套多层(套娃)

2024-04-21 17:15:12 572

原创 【设计模式】6、bridge 桥接模式

如下场景,1. 复杂逻辑拆分, 2. 多维,避免组合爆炸,可以使用

2024-04-20 23:01:06 480

原创 【设计模式】5、proxy 代理模式

proxy 模式:如果 client 需要操作一个 rawObject, 但希望 proxy 它时, 则可使用 proxy 模式.

2024-04-19 12:59:45 472

原创 【设计模式】4、prototype 原型模式

如果希望 复制对象, 可使用 "prototype 模式"如果 "待复制的对象" 是 interface 而不是 class, 或者如果 class 有 private 变量时. 无法知道 "待复制的对象"的细节, 则需要其实现 "clone()" 方法供外部调用.

2024-04-14 23:08:28 360

原创 【设计模式】3、builder 建造者模式

将对象的构建, 拆分为若干步骤。每次创建对象时, 都通过 builder 对象执行其中的部分步骤

2024-04-14 15:42:38 661

原创 【设计模式】2、工厂:简单工厂、工厂方法、抽象工厂

工厂设计模式分为:简单工厂、工厂方法、抽象工厂

2024-04-04 18:52:18 1475

原创 【设计模式】1、单例模式

单例分为, 执行时机分为: 饿汉, 懒汉两种

2024-04-04 18:49:50 397

原创 【计算机组成】27、有符号数和无符号数

有符号数和无符号数

2024-03-20 19:31:27 251

原创 【Redis】4、Scan 命令

SCAN 命令

2024-03-20 19:27:34 3144

架构设计1、任务调度系统:distributer、worker、tasks

任务调度系统时序图

2024-03-31

codelldb-x86-64-linux.vsix 下载,用于vscode 的LLDB 插件,用来debug调试 vscode

codelldb-x86_64-linux.vsix 下载,用于vscode 的LLDB 插件,用来debug调试 vscode,包括cpp、go、rust、c等语言

2022-11-14

assets的sample_sounds静态资源中的若干wav文件

导入assets,的sample_sounds静态资源中的若干wav文件,如65_cjipie.wav,66_indios.wav,。。。,86_oa-h.wav,让BeatBox项目运行起来

2022-09-11

vscode codelldb mac版本--codelldb-x86_64-darwin.vsix--下载后VISX离线安装

vscode, 如果需要debug调试, 需要codelldb插件才可以 然而因为网络原因经常下载不下来 下载后先unzip解压, 再在vscode离线用VISX方式离线安装即可

2022-08-24

kth-tips灰度纹理数据集

KTH-TIPS纹理灰度数据集,可以直接用于matlab图像分类

2018-12-21

Mnist手写体数据集

mnist手写体数据集,包含训练集和测试集共7w张,可直接用于matlab的图像分类

2018-12-21

cifar100的matlab版本

cifar100的mat文件,包含训练集、测试集和meta数据,用来做物体识别和分类的经典数据集

2018-08-09

Matlab的cifar-10.mat文件,可以直接用

cifar10.mat,包含batches.meta.mat,data_batch_1~5.mat,基test_batch

2018-08-09

Matlab的AR.mat文件,可以直接用

AR人脸数据经常用到的是其中的一个子集共100个人,50男50女。 AR人脸数据库的组成:两个阶段,每个阶段13个图片,7个表情和光照变化,3个墨镜3个围巾

2018-08-09

caltech101数据集

本数据集是caltech101数据集压缩包,完整有效,是深度学习用于图像分类的经典数据集。

2018-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除