多模态
文章平均质量分 51
loong_XL
这个作者很懒,什么都没留下…
展开
-
OCR识别小模型:GOT-OCR2
【代码】OCR识别小模型:GOT-OCR2。原创 2024-09-14 13:57:18 · 981 阅读 · 0 评论 -
qwen2 VL 多模态图文模型;图像、视频使用案例
【代码】qwen2 VL 多模态图文模型;图像、视频使用案例。原创 2024-09-11 12:57:28 · 843 阅读 · 0 评论 -
CLIP 微调图像侧分类训练
参考:https://www.marqo.ai/course/fine-tuning-clip-modelscolab参考:https://colab.research.google.com/drive/1iI16yIc8m-sWrGx3yVrlChUwScmKStQN?usp=sharing原创 2024-08-15 15:16:04 · 265 阅读 · 0 评论 -
vllm 部署vlm多模态模型MiniCPM-V 2.6;opeanai 接口访问、requests接口;gradio页面
参考:vllm:0.5.4测试单卡4090不足,这里两张4090部署部署:显存不足也可以减少max-model-len 测试。原创 2024-08-12 11:07:23 · 411 阅读 · 0 评论 -
vllm 推理vlm多模态大模型 InternVL使用案例;openai、requests接口使用
参考:支持模型https://docs.vllm.ai/en/latest/models/supported_models.html模型要升级到这:部署:api参考:https://platform.openai.com/docs/guides/vision?lang=curl用base64传递图片原创 2024-08-10 15:32:00 · 432 阅读 · 0 评论 -
CogVideoX 视频生成模型代码案例
参考:4090卡24g是运行可能显存不足,这里暂时enable_model_cpu_offload()测试,并减少num_inference_steps步数。原创 2024-08-07 11:25:57 · 282 阅读 · 0 评论 -
MiniCPM 多模态VLM图像视频理解代码案例
参考:https://huggingface.co/openbmb/MiniCPM-V-2_6https://github.com/OpenBMB/MiniCPM-V效果很好,20g现场可以运行:代码1)单图2)多图3)视频原创 2024-08-07 10:08:00 · 370 阅读 · 0 评论 -
SAM2分割万物:实时分割图像、视频;实时添加特效
参考:https://github.com/facebookresearch/segment-anything-2其他使用案例:https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/how-to-segment-videos-with-sam-2.ipynb在线demo:https://huggingface.co/spaces/SkalskiP/segment-anything-mode原创 2024-07-31 15:10:34 · 1084 阅读 · 0 评论 -
AIGC diffusers文生图模型optimum量化使用案例
参考:https://github.com/huggingface/blog/blob/main/quanto-diffusers.md量化transformer结构量化text encodeer结构原创 2024-07-30 19:24:46 · 137 阅读 · 0 评论 -
Kolors AIGC文生图中文、英文数据集分别lora微调案例对比
使用处理数据集参考:https://blog.csdn.net/weixin_42357472/article/details/140144141。处理成DiffSynth-Studio框架格式,这里选取50张做微调。主要前两列,这是训练的英文label。原创 2024-07-26 10:31:52 · 368 阅读 · 0 评论 -
AIGC 文生图 DiffSynth-Studio微调lora训练案例
参考:https://github.com/modelscope/DiffSynth-Studiohttps://github.com/modelscope/DiffSynth-Studio/tree/main/examples/train/kolors环境模型下载数据集:注意metadata.csv与数据集图片放一个目录train文件夹下地址:https://modelscope.cn/datasets/buptwq/lora-stable-diffusion-finetune/files原创 2024-07-25 12:18:09 · 1256 阅读 · 0 评论 -
AI多模态识别ALM大模型分享:Qwen-Audio
Qwen-Audio 接受多种音频(人类语音、自然声音、音乐和歌曲)以及文本作为输入,并输出文本。1)Qwen-Audio 声音音频对话。原创 2024-07-21 11:03:33 · 263 阅读 · 0 评论 -
AIGC 最强中文的文生图模型:Kolors 可图大模型、文生图、图生图使用
版本一定要 diffusers (0.30.0.dev0)图生图(Image to Image)文生图(Text to Image)原创 2024-07-13 10:39:41 · 807 阅读 · 0 评论 -
AI免费英语口语练习在线工具:Pi;gpt;其他大模型AI 英语学习智能体工具
https://chat.openai.com/ (网络国内使用不方便)https://pi.ai/talk (网络国内使用方便)豆包、海螺、通义、元宝等。原创 2024-07-04 15:02:26 · 888 阅读 · 0 评论 -
AIGC文生图PixArt-Sigma使用;StableDiffusion3使用
参考:https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-1024-MS。升级包:diffusers-0.29.0。4090卡显存占用17G多。生成4张,大概15秒需要。生成速度3秒左右1张。原创 2024-06-19 17:36:44 · 560 阅读 · 0 评论 -
Linux ComfyUI安装使用;Stable Diffusion 3使用
1)sd3_medium_incl_clips_t5xxlfp16.safetensors 放到ComfyUI/models/checkpoints/下。参考:https://www.youtube.com/watch?2)sd3官方提供的几个工作流拷贝到ComfyUI/custom_nodes/下。queue prompt运行整个工作流。模型等文件放到ComfyUI对应位置。模型加载完后运行图片生成1-2秒。1080生成,4-5秒时间。load是上传工作流文件。原创 2024-06-19 10:45:51 · 810 阅读 · 0 评论 -
ollama 多模态llava图像识别理解模型使用
参考:https://llava-vl.github.io/https://ollama.com/blog/vision-modelshttps://blog.csdn.net/weixin_42357472/article/details/137666022图片地址前面空格就行原创 2024-06-15 17:14:36 · 3453 阅读 · 0 评论 -
AI实时免费在线图片工具4:WordArt艺术字生成;IC-Light打光模型;screenshot to code图像直接生成网页
参考:https://github.com/abi/screenshot-to-code。官网:https://screenshottocode.com/原创 2024-06-11 22:17:04 · 386 阅读 · 0 评论 -
Flash Diffusion 加速文生图模型生成;Pixart-α加速测试
diffusers 这里是官方上面有更改,参考:https://github.com/gojasper/flash-diffusion/blob/main/requirements.txt。参考:https://github.com/gojasper/flash-diffusion。生成速度是快很多,4090差不多3秒生成。原创 2024-06-11 09:52:03 · 236 阅读 · 0 评论 -
AIGC Lumina-Next-T2I 中文文生图模型
Alpha-VLLM/Lumina-Next-T2I 与 google/gemma-2b 两个模型。demo.py 更改gemma路径。***:7860端口。原创 2024-05-20 17:45:00 · 193 阅读 · 0 评论 -
DIT 文生图transformer模型PixArt-Sigma、HunyuanDiT、Lumina-Next-T2I
在线体验网址:https://huggingface.co/spaces/PixArt-alpha/PixArt-Sigma在线体验网址:中文在线体验网址:原创 2024-05-20 10:47:44 · 368 阅读 · 0 评论 -
LLM应用-文档解析 AI大模型总结分析文档
支持总结,思维导图、对话。原创 2024-05-14 07:06:26 · 304 阅读 · 0 评论 -
AI多模态识别VLM大模型免费分享:LLaVA++、Qwen-VL、CogVLM2、MiniCPM、Florence-2、InternVL2、Phi-3.5-vision
参考:https://github.com/open-compass/VLMEvalKit。原创 2024-04-29 14:44:16 · 696 阅读 · 0 评论 -
T-GATE 无需要训练加速diffusion模型; PixArt-Alpha LCM再加速使用
lcm_pixart 模型这里用本地下载的,然后改用了cpu offload加载因为gpu资源不足。inference_step 4-10高点效果会好点,这步数比原来20来布确实有提升。参考:https://github.com/HaozheLiu-ST/T-GATE。原创 2024-04-10 14:19:10 · 135 阅读 · 0 评论 -
CLIP 与 SigLIP 文本图像对其算法学习理解
参考:https://github.com/openai/CLIPCLIP:batch内的图文对做多分类softmax;比如下图第一行表示第一个文本与batch内哪个图片匹配(多分类);除了行还计算列,比如第一列表示第一个图片与batch内哪个文本匹配SigLIP:batch内的图文对做二分类sigmod;比如下图第一行表示 第一个文本分别与batch内每个图片做二分类CLIPSigLIP2*np.eye(n) - np.ones(n) 构建了label的矩阵,-1或者1的二分类;例如下列n=3原创 2024-03-12 08:58:52 · 5623 阅读 · 0 评论 -
diffusers enable_model_cpu_offload指定具体GPU;服务器多个GPU卡索引查看
nvidia-smi查看值不一定准,下图2的T4实际是torch查出来索引为1,以后者torch查出来结果为准。原创 2024-02-21 09:20:41 · 416 阅读 · 0 评论 -
stable-video-diffusion 图生视频模型diffusers使用案例
T4卡16g运行:参考:https://huggingface.co/docs/diffusers/main/en/using-diffusers/text-img2vid案例用的google colab T4显卡运行安装包:pip install diffusers accelerate。原创 2024-02-19 20:18:13 · 282 阅读 · 0 评论 -
PixArt LCM加速文生图模型diffusers使用案例
参考:https://huggingface.co/PixArt-alpha/PixArt-LCM-XL-2-1024-MS使用下来这个模型效果速度算最不错的下载模型:(1080p图片生成,LCM模型是lcm加速)或。原创 2024-02-19 15:20:43 · 204 阅读 · 0 评论 -
stable-cascade 文生图模型diffusers使用案例
参考:https://huggingface.co/stabilityai/stable-cascade下载:需要分别下载两个模型stabilityai/stable-cascade-prior与stabilityai/stable-cascade。原创 2024-02-19 13:33:10 · 682 阅读 · 0 评论 -
sdxl-turbo、playground文生图模型diffusers使用案例
SDXL-Turbo是一种快速生成的文本到图像模型,可以在单个网络评估中从文本提示合成逼真的图像。参考:https://huggingface.co/stabilityai/sdxl-turbo。原创 2024-02-18 11:44:32 · 243 阅读 · 0 评论 -
VLM多模态图像识别小模型UForm
参考:https://github.com/unum-cloud/uform。UForm相比其他多模态模型小很多,不到5G参数。让用中文回答效果支持不好。原创 2024-02-18 10:41:01 · 368 阅读 · 0 评论 -
diffusers flask streamlit或gradio 简洁可视化AIGC文生图页面
参考:https://python-bloggers.com/2022/12/stable-diffusion-application-with-streamlit/https://github.com/LowinLi/stable-diffusion-streamlit本项目很简洁,暂时每次只能返回一张图片;gpu资源T4 16g代码1)flask 后端flask_end.py2)streamlit 前端streamlit_front.py可视化web效果电脑端访问:http://1***原创 2024-01-11 16:26:04 · 1078 阅读 · 0 评论 -
diffusers 文成图AIGC常见pipeline参数介绍
参考:Diffusers是用于生成图像,音频甚至分子3D结构的最先进的扩散模型的首选库。无论是寻找简单的推理解决方案还是训练自己的扩散模型,Diffusers都是一个支持两者的模块化工具箱。该library 的设计侧重于性能,简单的简单性和对抽象的可定制性。Diffusers提供了三个核心组件:1、Pipelines: 高层类,以一种用户友好的方式,基于流行的扩散模型快速生成样本2、Models:训练新扩散模型的流行架构,如UNet。原创 2024-01-11 10:36:15 · 792 阅读 · 0 评论 -
diffusers scheduler add_noise前向加噪可视化
参考:http://www.bryh.cn/a/604194.html看到PixArtAlpha模型前向加噪声beta 是0.0001到0.02,是linear线性改变beta_start、beta_end和beta_schedule 3个参数来控制噪声调度器的超参数beta。beta_start为控制推理阶段开始的beta值beta_end为控制beta的最终值beta_schedule可以通过一个函数映射来为模型推理的每一步生成一个beta值。默认是20步add_noise前向加噪可原创 2024-01-10 23:42:03 · 695 阅读 · 0 评论 -
Diffusion扩散模型学习3:Unet学习实现
图像分割unet、扩散模型学习原创 2024-01-09 11:18:24 · 989 阅读 · 0 评论 -
Diffusion扩散模型学习2:DDPM前向加噪过程torch实现
参考:https://arxiv.org/pdf/2006.11239.pdf ##论文1、红色框:前向过程论文公式推出可以从x0原图一步到最终噪声图2、βt是每次加噪的方差。原创 2024-01-06 22:02:07 · 544 阅读 · 0 评论 -
diffusers加速文生图速度;stable-diffusion、PixArt-α模型
参考:大概GPU资源8G-16G;另外模型资源下载慢可以在国内镜像:https://aifasthub.com/原创 2024-01-06 10:21:27 · 1587 阅读 · 0 评论 -
Diffusion扩散模型学习1:图片高斯加噪知识点
【代码】Diffusion学习:图片高斯加噪。原创 2023-12-23 21:09:13 · 738 阅读 · 0 评论