多模态
文章平均质量分 55
loong_XL
这个作者很懒,什么都没留下…
展开
-
AI多模态识别大模型分享
参考:https://github.com/open-compass/VLMEvalKit。原创 2024-04-29 14:44:16 · 245 阅读 · 0 评论 -
AI实时在线图片工具1:文本生成图像、去除背景、增强分辨率
https://nuxt-sam-webgpu.labz2.com/ (sam分割算法)https://getimg.ai/realtime(支持任务、卡通形象实时生成)原创 2024-04-23 10:51:33 · 303 阅读 · 0 评论 -
T-GATE 无需要训练加速diffusion模型; PixArt-Alpha LCM再加速使用
lcm_pixart 模型这里用本地下载的,然后改用了cpu offload加载因为gpu资源不足。inference_step 4-10高点效果会好点,这步数比原来20来布确实有提升。参考:https://github.com/HaozheLiu-ST/T-GATE。原创 2024-04-10 14:19:10 · 59 阅读 · 0 评论 -
CLIP 与 SigLIP 文本图像对其算法学习理解
参考:https://github.com/openai/CLIPCLIP:batch内的图文对做多分类softmax;比如下图第一行表示第一个文本与batch内哪个图片匹配(多分类);除了行还计算列,比如第一列表示第一个图片与batch内哪个文本匹配SigLIP:batch内的图文对做二分类sigmod;比如下图第一行表示 第一个文本分别与batch内每个图片做二分类CLIPSigLIP2*np.eye(n) - np.ones(n) 构建了label的矩阵,-1或者1的二分类;例如下列n=3原创 2024-03-12 08:58:52 · 566 阅读 · 0 评论 -
diffusers enable_model_cpu_offload指定具体GPU;服务器多个GPU卡索引查看
nvidia-smi查看值不一定准,下图2的T4实际是torch查出来索引为1,以后者torch查出来结果为准。原创 2024-02-21 09:20:41 · 100 阅读 · 0 评论 -
stable-video-diffusion 图生视频模型diffusers使用案例
T4卡16g运行:参考:https://huggingface.co/docs/diffusers/main/en/using-diffusers/text-img2vid案例用的google colab T4显卡运行安装包:pip install diffusers accelerate。原创 2024-02-19 20:18:13 · 142 阅读 · 0 评论 -
PixArt LCM加速文生图模型diffusers使用案例
参考:https://huggingface.co/PixArt-alpha/PixArt-LCM-XL-2-1024-MS使用下来这个模型效果速度算最不错的下载模型:(1080p图片生成,LCM模型是lcm加速)或。原创 2024-02-19 15:20:43 · 101 阅读 · 0 评论 -
stable-cascade 文生图模型diffusers使用案例
参考:https://huggingface.co/stabilityai/stable-cascade下载:需要分别下载两个模型stabilityai/stable-cascade-prior与stabilityai/stable-cascade。原创 2024-02-19 13:33:10 · 574 阅读 · 0 评论 -
sdxl-turbo、playground文生图模型diffusers使用案例
SDXL-Turbo是一种快速生成的文本到图像模型,可以在单个网络评估中从文本提示合成逼真的图像。参考:https://huggingface.co/stabilityai/sdxl-turbo。原创 2024-02-18 11:44:32 · 156 阅读 · 0 评论 -
VLM多模态图像识别小模型UForm
参考:https://github.com/unum-cloud/uform。UForm相比其他多模态模型小很多,不到5G参数。让用中文回答效果支持不好。原创 2024-02-18 10:41:01 · 194 阅读 · 0 评论 -
diffusers flask streamlit或gradio 简洁可视化文生图页面
参考:https://python-bloggers.com/2022/12/stable-diffusion-application-with-streamlit/https://github.com/LowinLi/stable-diffusion-streamlit本项目很简洁,暂时每次只能返回一张图片;gpu资源T4 16g代码1)flask 后端flask_end.py2)streamlit 前端streamlit_front.py可视化web效果电脑端访问:http://1***原创 2024-01-11 16:26:04 · 842 阅读 · 0 评论 -
diffusers 文成图AIGC常见pipeline参数介绍
参考:Diffusers是用于生成图像,音频甚至分子3D结构的最先进的扩散模型的首选库。无论是寻找简单的推理解决方案还是训练自己的扩散模型,Diffusers都是一个支持两者的模块化工具箱。该library 的设计侧重于性能,简单的简单性和对抽象的可定制性。Diffusers提供了三个核心组件:1、Pipelines: 高层类,以一种用户友好的方式,基于流行的扩散模型快速生成样本2、Models:训练新扩散模型的流行架构,如UNet。原创 2024-01-11 10:36:15 · 553 阅读 · 0 评论 -
diffusers scheduler add_noise前向加噪可视化
参考:http://www.bryh.cn/a/604194.html看到PixArtAlpha模型前向加噪声beta 是0.0001到0.02,是linear线性改变beta_start、beta_end和beta_schedule 3个参数来控制噪声调度器的超参数beta。beta_start为控制推理阶段开始的beta值beta_end为控制beta的最终值beta_schedule可以通过一个函数映射来为模型推理的每一步生成一个beta值。默认是20步add_noise前向加噪可原创 2024-01-10 23:42:03 · 551 阅读 · 0 评论 -
Diffusion扩散模型学习3:Unet学习实现
图像分割unet、扩散模型学习原创 2024-01-09 11:18:24 · 667 阅读 · 0 评论 -
Diffusion扩散模型学习2:DDPM前向加噪过程torch实现
参考:https://arxiv.org/pdf/2006.11239.pdf ##论文1、红色框:前向过程论文公式推出可以从x0原图一步到最终噪声图2、βt是每次加噪的方差。原创 2024-01-06 22:02:07 · 462 阅读 · 0 评论 -
diffusers加速文生图速度;stable-diffusion、PixArt-α模型
参考:大概GPU资源8G-16G;另外模型资源下载慢可以在国内镜像:https://aifasthub.com/原创 2024-01-06 10:21:27 · 1427 阅读 · 0 评论 -
Diffusion扩散模型学习1:图片高斯加噪知识点
【代码】Diffusion学习:图片高斯加噪。原创 2023-12-23 21:09:13 · 528 阅读 · 0 评论