TigerZ*
码龄11年
关注
提问 私信
  • 博客:590,400
    590,400
    总访问量
  • 115
    原创
  • 11,686
    排名
  • 34,977
    粉丝
  • 580
    铁粉
  • 学习成就

个人简介:计算机视觉相关。接付费咨询开发。 算法:AIGC、分类、检测、特征、长尾、开集、聚类、传统图像算法。 语言:Python、C & C++。 工具:pytorch、TRT、CUDA、Triton、DeepStream、DALI。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 目前就职: 京东
  • 加入CSDN时间: 2013-11-17
博客简介:

TigerZ*的博客

博客描述:
主要分享计算机视觉、大健康相关内容
查看详细资料
  • 原力等级
    成就
    当前等级
    7
    当前总分
    3,729
    当月
    28
个人成就
  • 人工智能领域优质创作者
  • 获得1,063次点赞
  • 内容获得228次评论
  • 获得5,108次收藏
  • 代码片获得1,334次分享
创作历程
  • 39篇
    2024年
  • 11篇
    2023年
  • 10篇
    2022年
  • 35篇
    2021年
  • 14篇
    2019年
  • 12篇
    2018年
  • 2篇
    2016年
成就勋章
TA的专栏
  • AIGC算法
    付费
    37篇
  • 深度学习算法
    32篇
  • GPU编程&模型加速
    8篇
  • 深度学习工具链
    9篇
  • 无监督—聚类
    8篇
  • 项目类-图像-以图搜图
    13篇
  • Linux 相关
    5篇
  • python 用法相关
    7篇
  • c++
  • opencv
    1篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉深度学习pytorch图像处理nlp分类
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

卸载Python

介绍Linux 如何干净卸载Python
原创
发布博客 2024.10.16 ·
581 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

目标检测算法——YOLOV11——算法详解

其实到了YOLOV5 基本创新点就不太多了,主要就是大家互相排列组合复用不同的网络模块、损失函数和样本匹配策略, V11支持多种视觉任务:物体检测、实例分割、图像分类、姿态估计和定向物体检测(OBB)。对比YOLOV8主要涉及到: *backbone 中的使用C2f模块 变为 c3k2 模块。 *backbone 中的最后一层(sppf层)后增加了C2PSA模块。 *head 解耦头中的分类检测头两个Conv 变为 DWConv。
原创
发布博客 2024.10.16 ·
3630 阅读 ·
48 点赞 ·
0 评论 ·
71 收藏

onnx TRT 版本对应关系

主要介绍onnx version、opset、onnx runtime、TensorRT 对应关系
原创
发布博客 2024.09.30 ·
124 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

VLM 系列——Qwen2 VL——论文解读

qwen2-vl 是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器(标准VIT输出后面接patch merger )+ LLM形式。比较创新的是统一视觉处理方式(3D CNN统一视频、图片)+图像缩放方式(自适应缩放)+3D LLM位置编码。能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解(代码编写和debug论文暂时未提)。
原创
发布博客 2024.09.30 ·
392 阅读 ·
6 点赞 ·
0 评论 ·
0 收藏

VLM 系列——Qwen2 VL——论文解读——前瞻(源码解读)

Qwen2 VL 是一系列多模态大型语言模型(MLLM),其中包括2B、7B、72B三个版本,整体采用视觉编码器+LLM形式(可以认为没有任何投射层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、多语言、agent、高清图理解。Qwen2-VL-2B可以轻松地在现代手机上本地进行推理。比较创新的是图像缩放方式+3D LLM位置编码。
原创
发布博客 2024.09.10 ·
533 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

VLM 系列——phi3.5-Vision——论文解读

是一系列大型语言模型(LLM) & 多模态大型语言模型(MLLM)。其中LLM包括phi-3-mini 3.8B、phi-3-small 7B、phi-3-medium 14B,phi-3-mini可以轻松地在现代手机上本地进行推理;多模态模型包括phi-3-vision(基于phi-3-mini & CLIP ViT-L/14) 4.2B。本文重点介绍多模态的phi-3-mini模型,该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、 多图问对话、视频理解对话 、json格式、高清
原创
发布博客 2024.08.29 ·
461 阅读 ·
5 点赞 ·
1 评论 ·
0 收藏

VLM 系列——Mini-Monkey——论文解读

Mini-Monkey 是一个轻量级MLLM(多模态的视觉-文本模型),基于InternViT、MLP和InternLLM,其实就是全套的Intern VL2。在2B参数MLLM中取得了最先进的性能。,模型和训练策略非常高效.创新点:图像的处理方式——多尺度自适应裁剪策略(MSAC)+一种尺度压缩机制(SCM)。Mini-Monkey能够自适应地生成多尺度表示,允许它从不同尺度中选择未被分割的物体,并有效地压缩图像标记。
原创
发布博客 2024.08.29 ·
243 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

VLM 系列——MiniCPM-Llama3-V 2.6——论文解读——前瞻(源码解读)

MiniCPM-Llama3-V 2.6 是一款面向终端设备的多模态大型语言模型(MLLM),论文暂未发布,它专注于实现在手机等资源受限设备上的高级AI功能,参数8B(qwen2 7B + SigLIP ViT-400m/14 + 视觉标记压缩层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、单图文问答、代码编写和debug、多图问对话、视频理解对话、json格式、高清OCR解析(函数调用论文暂时未提)。本文结合源码,将重点改进和相关技术进行了拆解介绍。
原创
发布博客 2024.08.16 ·
494 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

模型量化——NVIDIA——QAT

本文讲解如何使用QAT进行量化,并针对YOLO系列进行了代码演示,开箱即用量化YOLO v5、YOLO V8 等热门的检测模型,增强自己的竞争力,强力推荐吆。
原创
发布博客 2024.08.09 ·
185 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

VLM 系列——MiniCPM-Llama3-V 2.5——论文解读

MiniCPM-Llama3-V 2.5 是一款面向终端设备的多模态大型语言模型(MLLM),它专注于实现在手机等资源受限设备上的高级AI功能,参数8B(llama3 7B + SigLIP ViT-400m/14 + 视觉标记压缩层)。该模型能够处理包括文本、图像在内的多种数据类型,具备图片描述、图文问答等功能。
原创
发布博客 2024.08.09 ·
739 阅读 ·
5 点赞 ·
1 评论 ·
2 收藏

hugging face 使用教程———快速入门

本篇存在的意义是快速介绍hugging face使用,梳理主要部件,梳理易混淆概念。原因是:目前hugging face的使用,官方放在了3个地方(参考链接部分):使用文档、NLP教程、Transformers git的readme 文件,很多重叠内容比较浪费时间,很容易看懵。等大家有了主要概念再去看需要具体看某个函数或功能。
原创
发布博客 2024.07.24 ·
2202 阅读 ·
10 点赞 ·
0 评论 ·
26 收藏

LLM 系列——Qwen2——论文解读

Qwen2 是单模态纯文本的大语言模型,开源了一整套基础和指令调优的语言模型,参数范围从5亿到720亿不等,包括密集模型和混合专家模型。可以用于:语言理解、生成、多语言、编码、数学和推理。主要是精召性能提升、数据和长文本处理方面改进,包括数据处理等使用了一些最新的其他论文的思路,模型结构等方面并没有大的改动。
原创
发布博客 2024.07.24 ·
514 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

视频分类C3D源码重构版

发布资源 2024.05.22 ·
zip

视频分类——C3D使用

文章介绍了视频分类模型和开源代码的使用。
原创
发布博客 2024.05.21 ·
762 阅读 ·
16 点赞 ·
0 评论 ·
12 收藏

VLM 系列——InternVL 1.5——论文解读

InternVL 1.5 是一个多模态大模型,主要还是图文问答等,不能完成图像生成、语音输入输出。也是标准的两阶段训练。论文称,InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型,特别是在与 OCR 相关的数据集。主要贡献有三点;更强视觉编码器、支持动态高分辨率、高质量的双语数据集。
原创
发布博客 2024.05.17 ·
865 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

VM 系列——SEED-X——论文解读

seed-x 不同于之前的图像文本大模型,主要面向图像问答理解。通过动态分辨率图像编码来处理任意尺寸和宽高比的图像,其作为一个统一的多模态基础模型,通过不同的指令调整,可以在现实世界中作为各种多模态 AI 助手使用,支持图像理解、生成、编辑(在指定图像通过文本指令改变图像内容)和检测等功能。但是一定要注意文章提到,当前不同的功能是不同的独立子模型实现的。
原创
发布博客 2024.05.13 ·
392 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

目标检测算法——YOLO-Word——算法详解

本文主要介绍YOLO-word 算法,从思路和数据角度去梳理输出文章的创新点,整体而言CLIP 文本embedding的引入以及大规模数据的加入,赋予了模型识别开集其余类目的能力。
原创
发布博客 2024.04.19 ·
1587 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

目标检测算法——YOLOV9——算法详解

本文主要介绍了YOLOV9 算法的原理,并结合官方git 源码和其他人员的一些issue,更深层的尝试去探讨论文具体实现时的一些疑问。
原创
发布博客 2024.04.16 ·
3227 阅读 ·
32 点赞 ·
6 评论 ·
41 收藏

模型量化——NVIDIA——方案选择(PTQ、 partialPTQ、 QAT)

本文主要介绍NVIDIA 模型量化方案的选型思路(主要有三种:PTQ、 partialPTQ、 QAT)。并且对其中涉及的知识点进行了提炼总结。
原创
发布博客 2024.04.09 ·
516 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

大模型知识点汇总——分布式训练

本篇在宏观上介绍AIGC、LLM 训练过程中的模型加速相关概念和技术,不做数学推导和过于细节介绍,旨在快速有一个宏观认知,不拘泥在细节上。涉及:混合精度训练、数据并行、张量并行、流水线并行、模型并行、3D并行、混合并行、ZeRO 1、ZeRO 2、ZeRO 3、ZeRO-offload、Megatron、DeepSpeed、PFlash Attention、nvlink、nvswitch、Infiniband。
原创
发布博客 2024.03.25 ·
1105 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏
加载更多