CyreneSimon
码龄7年
关注
提问 私信
  • 博客:34,583
    视频:3
    34,586
    总访问量
  • 31
    原创
  • 50,016
    排名
  • 157
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2018-05-04
博客简介:

weixin_42136827的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    523
    当月
    8
个人成就
  • 获得236次点赞
  • 内容获得5次评论
  • 获得272次收藏
  • 代码片获得1,280次分享
创作历程
  • 15篇
    2024年
  • 2篇
    2023年
  • 7篇
    2022年
  • 7篇
    2021年
  • 2篇
    2020年
成就勋章
兴趣领域 设置
  • 数据结构与算法
    排序算法
  • 人工智能
    opencvcaffetensorflowpytorch
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

179人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【解决nvcc 和 nvidia-smi不一致问题】

选择runfile,想保留已有driver可以在安装过程取消安装。选择和nvidia-smi一致版本。修改~/.bashrc 环境变量。空格取消安装driver。查看nvcc -V 一致。
原创
发布博客 2024.10.13 ·
360 阅读 ·
10 点赞 ·
0 评论 ·
4 收藏

BLIP:Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generat

Wang et al., 2021)使用了从网络中自动收集的图像和替代文本对 {(Iw, Tw)},但这些替代文本(alt-text)通常不能准确描述图像的视觉内容,使其成为噪声较大的信号,不适合用于学习视觉-语言对齐。使用 ViT 更加计算友好。BLIP 旨在设计一个可以同时处理理解和生成任务的模型,并通过引导策略(生成与过滤)优化预训练数据的质量,从而在广泛的视觉-语言任务中取得最先进的性能。最终,将过滤后的图像-文本对与人工标注的图像-文本对相结合,形成一个新的数据集,用于预训练一个新的模型。
原创
发布博客 2024.10.03 ·
968 阅读 ·
13 点赞 ·
0 评论 ·
14 收藏

使用 LoRA 进行模型微调的步骤

定义一个 LoRA 模块,用于替换 transformer 中的标准线性层,通常在自注意力机制的 query、key 和 value 投影中使用# 定义 LoRA 模块# LoRA 引入了两个额外的矩阵 W_down 和 W_upself.W_down = nn.Linear(input_dim, rank, bias=False) # 低秩降维self.W_up = nn.Linear(rank, output_dim, bias=False) # 低秩升维# 将低秩适配结果加到原始输出上。
原创
发布博客 2024.09.21 ·
488 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

SAM 2: Segment Anything in Images and Videos

SAM2是一个用于处理图像和视频分割的统一模型。基于最初的,SAM2 将其能力从静态图像扩展到视频分割。其关键特点在于架构和流媒体记忆,允许实时处理视频并利用之前的帧信息作为参考来提高分割的准确性。SAM2 不仅在图像上表现出色,在视频分割上也显示出更好的交互效率和准确性。**PVS(Prompt-based Video Segmentation)**任务允许在视频的任意帧上向模型提供提示。这些提示可以是正/负点击、边界框或蒙版,旨在定义需要分割的目标对象或细化模型预测的结果。
原创
发布博客 2024.09.17 ·
895 阅读 ·
16 点赞 ·
0 评论 ·
22 收藏

git push : RPC failed; HTTP 400 curl 22 The requested URL returned error: 400

HTTP 400 curl 22 The requested URL returned error: 400,通常表示你推送的文件大小有问题或与网络相关的问题。如果你有大文件,应该使用 Git LFS(Large File Storage) 来跟踪它们。GitHub 对通过 HTTP 推送的文件大小和仓库大小有一定的限制。你还可以尝试使用 SSH 而不是 HTTPS,因为 SSH 在处理大文件的推送时有时更加可靠。此命令将 Git 的缓存区大小从默认值增大,以防止推送过程中发生超时问题。
原创
发布博客 2024.09.16 ·
1422 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏

OCR2.0--General OCR Theory

光学字符识别(OCR)是一项广泛应用的技术,它能够从图像中提取字符并将其转换为可编辑格式。虽然OCR-1.0在过去取得了广泛应用,但传统的系统在处理现代复杂任务方面遇到了很多挑战,包括文档、复杂图表以及乐谱等多种文本格式的处理。本文讨论了OCR技术的进化方向,重点介绍了通用OCR理论(General OCR Theory)以及新提出的GOT模型。
原创
发布博客 2024.09.14 ·
1226 阅读 ·
26 点赞 ·
0 评论 ·
27 收藏

LoRA: Low-Rank Adaptation Abstract

LoRA 论文的摘要介绍了一种用于减少大规模预训练模型微调过程中可训练参数数量和内存需求的方法,例如拥有1750亿参数的GPT-3。LoRA 通过冻结模型权重并引入可训练的低秩分解矩阵,减少了10,000倍的可训练参数,并降低了3倍的GPU内存使用量,同时在性能上与完全微调持平,并且没有额外的推理延迟。更多信息请访问 LoRA GitHub。。LoRA 在大多数任务上都优于其他适应方法,甚至在某些任务上超过了完全微调的性能,同时训练的参数远远少于完全微调。
原创
发布博客 2024.09.12 ·
1059 阅读 ·
9 点赞 ·
0 评论 ·
10 收藏

LongLLaVA:扩展多模态大语言模型到处理1000张图像的能力

LongLLaVA代表了多模态 AI 的一次重大进步,提供了一种强大的解决方案,用于大规模视觉数据的处理。通过其混合架构、高效的图像 token 压缩以及渐进式训练策略,LongLLaVA 为多模态长上下文模型设定了新的标准。它不仅在扩展性上表现出色,而且在处理大量图像或视频数据的任务中也表现出色。这一模型的开发为视频理解医学影像和多模态智能助手等领域的 AI 应用指明了未来的方向,在需要处理大量数据集的应用场景中将具有重要影响。
原创
发布博客 2024.09.10 ·
1386 阅读 ·
26 点赞 ·
0 评论 ·
14 收藏

Qwen-VL

是一个前沿的大规模视觉语言模型(LVLM),设计用于增强视觉和语言模态之间的交互能力。基于模型,Qwen-VL 集成了视觉编码器、位置感知的视觉语言适配器以及多阶段训练流程,扩展了从文本到图像的理解能力。Qwen-VL 不仅支持传统的任务,如图像描述和视觉问答(VQA),还能够执行更复杂的视觉任务,例如细粒度的对象检测和图像中的文本识别。通过多阶段的训练框架和大规模数据的应用,Qwen-VL 在多个视觉语言任务中展现了出色的性能。本文将深入探讨其架构、方法论和应用场景。
原创
发布博客 2024.09.09 ·
897 阅读 ·
21 点赞 ·
0 评论 ·
30 收藏

GLIP - 统一物体检测与短语定位的语言

是一个新颖的模型,通过将视为上下文化的短语定位任务,将物体检测和短语定位统一起来。这种方法实现了一个灵活的、开放词汇的物体检测框架,将图像中的区域与文本描述对齐。这种方法克服了传统物体检测系统的局限性,后者通常只训练于固定的物体类别集。GLIP 的核心贡献在于将物体检测重构为短语定位、深度语言感知的视觉与文本信息融合,以及利用大量人类标注和自监督的图像-文本数据进行预训练。
原创
发布博客 2024.09.09 ·
1594 阅读 ·
12 点赞 ·
0 评论 ·
23 收藏

Vision Transformer(ViT)——图像识别的新篇章

Vision Transformer通过创新性地将Transformer架构应用于图像识别任务,突破了传统CNN的限制。在大规模数据集和强大的计算资源支持下,ViT展示了卓越的性能。尽管仍面临一些挑战,但ViT的出现为计算机视觉领域带来了新的思路和可能性。
原创
发布博客 2024.09.07 ·
1237 阅读 ·
15 点赞 ·
0 评论 ·
31 收藏

Mac 安装 vscode miniconda

它包含了Python解释器以及conda,conda是一个包管理器和环境管理器,用于创建独立的Python环境。打开设置: 点击“文件”->“首选项”->“设置”(或使用快捷键 Ctrl+Shift+P,输入“Preferences: Open User Settings”)。这条错误信息的意思是:VS Code 无法将指定的 Python 解释器路径写入用户设置文件中。输入conda命令: 在终端中输入conda --version,如果显示conda的版本信息,则说明安装成功。
原创
发布博客 2024.09.02 ·
1652 阅读 ·
28 点赞 ·
0 评论 ·
16 收藏

CLIP原理及code

在模型训练时,CLIP的图像编码器和文本编码器并不是独立训练的,而是通过一个共享的对比学习目标函数共同训练。CLIP通过大规模的图像-文本对进行训练,使得模型能够将正确配对的图像和文本在嵌入空间中靠近,而将错误配对的图像和文本分离。每个批次的数据包含图像和对应的文本描述,模型通过计算图像和文本的嵌入表示,然后使用对比损失来训练模型。:尽管论文主要关注的是图像和文本的关联,但CLIP的输出也可以用于指导生成模型,如DALL·E,以生成符合文本描述的图像。:CLIP能够实现文本检索图像,或图像检索文本。
原创
发布博客 2024.09.01 ·
1532 阅读 ·
28 点赞 ·
0 评论 ·
19 收藏

扩散模型(Diffusion Models)

扩散模型是一种基于随机过程的生成模型,灵感来源于物理学中的扩散过程,即有序结构逐渐转化为无序状态。在机器学习中,扩散模型用于生成高质量的数据(如图像、音频等)。其核心思想是通过一个可逆的随机过程,将数据从有序状态(如清晰图像)转化为无序状态(噪声),然后逆向该过程生成新数据。
原创
发布博客 2024.08.26 ·
700 阅读 ·
11 点赞 ·
0 评论 ·
13 收藏

【模型部署不同精度的区别】

如果需要识别非常细微的特征,例如医学影像中的肿瘤,就需要更高的精度,选择FP32。需要根据具体的应用场景和硬件资源,综合考虑模型的精度、速度和内存占用,才能找到最优的解决方案。: 不同的模型结构对精度的敏感程度不同。应用场景: 对实时性要求较高,但精度损失可以接受的场景,例如手机端的图像分类应用。应用场景: 对速度和内存要求极高的场景,例如嵌入式设备上的实时图像处理。云端服务: 对精度要求较高,但可以利用强大的计算资源,通常采用FP32。: 如果设备的计算能力和内存有限,就需要选择低精度的模型。
原创
发布博客 2024.08.24 ·
393 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

NOTE! Installing ujson may make loading annotations faster.

UltraJSON是一个超快的JSON编码器和解码器,用纯C编写,带有Python 3.7+的绑定。
原创
发布博客 2023.05.30 ·
219 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Segment Anything

code: https://github.com/facebookresearch/segment-anythingpaper: 论文地址在线demo:https://segment-anything.com/demo数据集:https://segment-anything.com/dataset/index.html代码测试网页demo测试可以通过jupyter notebook 体验测试使用SAM选择对象首先,加载SAM模型和预测器。将下面的路径更改为指向SAM检查点。为了获得最
原创
发布博客 2023.04.08 ·
366 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

detrex code 复现

detrex code
原创
发布博客 2022.09.28 ·
878 阅读 ·
3 点赞 ·
4 评论 ·
9 收藏

kcf

发布视频 2022.07.21

siamFC

发布视频 2022.07.21
加载更多