loong_XL
这个作者很懒,什么都没留下…
展开
-
Kolors AIGC文生图中文、英文数据集分别lora微调案例对比
使用处理数据集参考:https://blog.csdn.net/weixin_42357472/article/details/140144141。处理成DiffSynth-Studio框架格式,这里选取50张做微调。主要前两列,这是训练的英文label。原创 2024-07-26 10:31:52 · 65 阅读 · 0 评论 -
AIGC 文生图 DiffSynth-Studio微调lora训练案例
参考:https://github.com/modelscope/DiffSynth-Studiohttps://github.com/modelscope/DiffSynth-Studio/tree/main/examples/train/kolors环境模型下载数据集:注意metadata.csv与数据集图片放一个目录train文件夹下地址:https://modelscope.cn/datasets/buptwq/lora-stable-diffusion-finetune/files原创 2024-07-25 12:18:09 · 1025 阅读 · 0 评论 -
大模型llama结构技术点分享;transformer模型常见知识点nlp面经
大模型模型结构,大模型nlp面经,transformer原创 2024-07-25 12:03:04 · 64 阅读 · 0 评论 -
数据标注工具:label-studio 使用,支持文本、音频、视频、图像、大模型等数据集标注
参考:https://zhuanlan.zhihu.com/p/704211156官网地址:https://github.com/HumanSignal/label-studiohttps://labelstud.io/guide/quick_start下载docker安装:mydata 需要先创建和加权限:mkdir mydatachmod 777 mydata/打开ip端口8090:需要提前注册下进入创建项目https://labelstud.io/guide/setup_proj原创 2024-07-23 09:28:01 · 293 阅读 · 0 评论 -
AIGC Kolors可图IP-Adapter-Plus风格参考模型使用案例
解决主要就是把报错的相关包的指定版本去掉即可。在上面cd Kolors下。原创 2024-07-20 11:00:36 · 1701 阅读 · 0 评论 -
AIGC工具:IPAdapter和ControlNet 指导控制生成工具
ControlNet强调对生成过程的直接控制,如通过线条、边缘、形状等信息;而IPAdapter侧重于风格迁移和内容的间接引导。IPAdapter 它专注于通过迁移图片风格来生成新的图像内容。IPAdapter的强项在于能够将一张图片的风格迁移到另一张图片上,实现风格融合,甚至可以进行多图风格的融合。它允许用户通过上传参考图片,结合特定的提示词,生成具有参考图片风格的新图像。原创 2024-07-19 15:27:09 · 2349 阅读 · 0 评论 -
chatglm4 支持更长内容输入model_max_length 128k;外推最大支持1M 100万
要使用 --enable_chunked_prefill --max_num_batched_tokens 8192 两个参数,不适用两张卡也不足。GLM-4-9B-Chat-1M 的模型仓库,支持1M上下文长度(100万)texts是加载的一个文档,大概2万多字。测试下来10万上下午没问题,两张卡。原创 2024-07-19 12:01:27 · 793 阅读 · 0 评论 -
TensorFlowTTS tts语音合成使用案例;tflite模型转换及加载使用
参考:https://github.com/TensorSpeech/TensorFlowTTS/tree/136877136355c82d7ba474ceb7a8f133bd84767ehttps://huggingface.co/tensorspeech/tts-fastspeech2-ljspeech-encolab运行参考:https://colab.research.google.com/drive/1akxtrLZHKuMiQup00tzO2olCaN-y3KiD?usp=sharing#原创 2024-07-18 18:39:22 · 480 阅读 · 0 评论 -
CosyVoice TTS实时语音合成语音克隆流式api接口,requests请求使用案例
参考:主要改动app.py 、cosyvoice.py两个文件,这里用的CosyVoice docker环境测试。原创 2024-07-18 10:06:44 · 2302 阅读 · 0 评论 -
ollama 模型国内加速下载,制作自定义Modelfile模型文件
参考:https://www.zhihu.com/question/640579563/answer/3562899008https://github.com/ollama/ollama/blob/main/docs/modelfile.mdollama主要的模型文件格式是gguf,可以在modelscope或huggingface上下载huggingface:2、下载gguf模型加载使用1)查看Modelfile格式ollama show qwen:14b --modelfile2)创建自己原创 2024-07-16 09:25:01 · 375 阅读 · 0 评论 -
AIGC 最强中文的文生图模型:Kolors 可图大模型、文生图、图生图使用
版本一定要 diffusers (0.30.0.dev0)图生图(Image to Image)文生图(Text to Image)原创 2024-07-13 10:39:41 · 481 阅读 · 0 评论 -
AIGC支持中文的文生图模型:HunyuanDiT 低显卡蒸馏版使用
版本一定要 diffusers (0.30.0.dev0)大概小于15G就可以。原创 2024-07-13 10:20:32 · 364 阅读 · 0 评论 -
EchoMimic 数字人项目:语音驱动图像说话项目
参考:https://github.com/BadToBest/EchoMimic下载模型下载位置放到下面下载代码目录下, cd EchoMimic 下下载代码运行代码自定义图像和音频,更改./configs/prompts/animation.yaml 文件即可运行后的生成视频保存到output文件夹下:10s音频大概花了6分钟生成了两个,一个代声音的视频原创 2024-07-11 12:59:40 · 550 阅读 · 0 评论 -
CosyVoice 语音合成TTS、声音克隆自定义api服务搭建;requests请求使用
参考:https://blog.csdn.net/weixin_42357472/article/details/140213547。原创 2024-07-10 14:37:55 · 532 阅读 · 0 评论 -
FunAudioLLM SenseVoice语音转录(ASR)与CosyVoice语音合成(TTS)及语音克隆使用案例;webui可视化页面操作使用
参考:https://fun-audio-llm.github.io/在线体验:https://modelscope.cn/studios/iic/CosyVoice-300M参考:https://github.com/FunAudioLLM/SenseVoice下载:使用:参考:https://github.com/FunAudioLLM/CosyVoice在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300M这里docker运行原创 2024-07-09 19:15:08 · 887 阅读 · 0 评论 -
声音克隆:fish-speech 推理、requests访问接口案例
参考:https://hub.docker.com/r/lengyue233/fish-speechhttps://speech.fish.audio/inference/#http-api下载模型:下载的内容有->一般是符号链接,实际保存路径在符号链接后面路径下,如果需要把他复制过来会其他地方吗,可以下载镜像:需要GPU环境:进入容器后还需要运行api服务:默认音色,女生,推理时间有点长相对,需要10s;声音整体质量很不错原创 2024-07-05 11:44:21 · 476 阅读 · 0 评论 -
ollama 模型显存常驻OLLAMA_KEEP_ALIVE;支持并发访问OLLAMA_NUM_PARALLEL;支持同时推理多个模型
参考:https://blog.csdn.net/weixin_42357472/article/details/137666022。原创 2024-07-01 12:46:59 · 557 阅读 · 0 评论 -
qwen2 支持更长内容输入model_max_length 32k;外推最大支持128k
config配置文件里也可以看到一些模型信息,能输入识别长度max_position_embeddings或model_max_length=32768;max-model-len 长度可以最大填写模型config里max_position_embeddings=32768;测试下来两万多没有问题。texts测试读取pdf两万多个字输入模型测试。原创 2024-06-29 10:53:44 · 226 阅读 · 0 评论 -
gemma2 vllm和ollama推理部署;openai接口调用、requests调用
参考:hl=zh-cn发布了两个型号9B\27B支持上下文长度有点短:4096。原创 2024-06-29 10:24:11 · 161 阅读 · 0 评论 -
diffusers accelerate多显卡文生图案例
【代码】diffusers accelerate多显卡文生图案例。原创 2024-06-24 09:43:24 · 64 阅读 · 0 评论 -
AIGC文生图PixArt-Sigma使用;StableDiffusion3使用
参考:https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-1024-MS。升级包:diffusers-0.29.0。4090卡显存占用17G多。生成4张,大概15秒需要。生成速度3秒左右1张。原创 2024-06-19 17:36:44 · 472 阅读 · 0 评论 -
Linux ComfyUI安装使用;Stable Diffusion 3使用
1)sd3_medium_incl_clips_t5xxlfp16.safetensors 放到ComfyUI/models/checkpoints/下。参考:https://www.youtube.com/watch?2)sd3官方提供的几个工作流拷贝到ComfyUI/custom_nodes/下。queue prompt运行整个工作流。模型等文件放到ComfyUI对应位置。模型加载完后运行图片生成1-2秒。1080生成,4-5秒时间。load是上传工作流文件。原创 2024-06-19 10:45:51 · 478 阅读 · 0 评论 -
huggingface accelerate 多机多卡DDP分布式训练案例
参考:https://www.bilibili.com/video/BV1jS411K72E/?spm_id_from=333.788&vd_source=34d74181abefaf9d8141bbf0d485cde7https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/deepspeed_accelerate/accelerate_basics_scripts.pyhttps://www.cnb原创 2024-06-17 14:52:59 · 236 阅读 · 0 评论 -
AI实时免费在线图片工具4:WordArt艺术字生成;IC-Light打光模型;screenshot to code图像直接生成网页
参考:https://github.com/abi/screenshot-to-code。官网:https://screenshottocode.com/原创 2024-06-11 22:17:04 · 271 阅读 · 0 评论 -
Flash Diffusion 加速文生图模型生成;Pixart-α加速测试
diffusers 这里是官方上面有更改,参考:https://github.com/gojasper/flash-diffusion/blob/main/requirements.txt。参考:https://github.com/gojasper/flash-diffusion。生成速度是快很多,4090差不多3秒生成。原创 2024-06-11 09:52:03 · 178 阅读 · 0 评论 -
qwen2 vllm推理部署;openai接口调用、requests调用
参考:https://qwenlm.github.io/zh/blog/qwen2/https://huggingface.co/Qwen下载的Qwen2-7B-Instruct使用:Qwen2-7B-Instruct比较相近模型:原创 2024-06-07 09:36:19 · 1117 阅读 · 0 评论 -
vllm 大模型量化微调推理使用: lora、gptq、awq
AWQ\GPTQ量化模型运行方式(测试下来感觉GPU都会占满,4090卡不量化运行90 tokens/s,AWQ\GPTQ 版30左右 tokens/s)如果是用OPENAI包 model还是写 名称填的–lora-modules qwen-lora;不填这个默认vllm模型不会加载使用lora。如果是这个名称填的–lora-modules qwen-lora。原创 2024-06-06 19:17:11 · 491 阅读 · 0 评论 -
GLM-4-9B VLLM 推理使用;openai接口调用、requests调用
glm4 vllm openai原创 2024-06-06 16:54:13 · 374 阅读 · 0 评论 -
ultralytics solutions yolo快速解决方案,快速实现某些场景的图像解决方案
1、自定义画框,比如矩形框四个点的坐标获取通过cv2点击图片获取像素点坐标import cv2# 获取鼠标点击位置的像素值# 加载图片# 显示图片并注册鼠标事件处理函数# 释放窗口shapely 指定画框,根据上面坐标,下面例子是画两个框,多边形和矩形Polygon画框看着坐标是逆时针可以串起来坐标},},原创 2024-06-06 10:17:33 · 41 阅读 · 0 评论 -
Jetson Orin Nano安装使用;cuda、pytorch安装;yolo使用;大模型qwen使用
参考:https://blog.csdn.net/q839039228/article/details/126278528安装jtop资源查看:安装:查看:jtop按2查看GPU按3查看CPU参考:https://blog.csdn.net/sinat_34774688/article/details/134790187https://developer.nvidia.com/embedded/jetpack?_gl=1yr0rc5_gcl_au*NDU0NjE2NjY0LjE3MTQ3OD原创 2024-06-04 15:58:35 · 174 阅读 · 0 评论 -
大模型微调工具LLaMA-Factory docker安装、大模型lora微调训练
参考:报错解决:1)Docker 构建报错 RuntimeError: can’t start new thread:参考:https://github.com/triton-inference-server/server/issues/5931暂时加 --privileged解决。原创 2024-06-03 18:05:41 · 305 阅读 · 0 评论 -
华为昇腾310 yolov8自训练模型推理使用
参考:https://gitee.com/cumt/ascend-yolov8-sample/tree/masterhttps://developer.huawei.com/consumer/cn/forum/topic/0203148227811150357https://blog.csdn.net/weixin_42357472/article/details/139322218源码下载安装opencv:安装acl/acl.h:https://gitee.com/ascend/samples/t原创 2024-05-30 15:07:09 · 427 阅读 · 0 评论 -
ChatTTS 语音合成案例
参考:使用体验:1、生成速度较慢2、声音生成随机不可控3、效果确实不错。原创 2024-05-30 09:45:11 · 705 阅读 · 0 评论 -
华为昇腾310 ATC模型转换工具安装
参考:https://bbs.huaweicloud.com/blogs/393282?utm_source=zhihu&utm_medium=bbs-ex&utm_campaign=other&utm_content=contenthttps://www.hiascend.com/document/detail/zh/canncommercial/601/inferapplicationdev/atctool/atctool_0004.html首先需要安装:cann驱动安装Cann安装:http原创 2024-05-29 13:55:10 · 204 阅读 · 0 评论 -
yolov8 ultralytics库实现多机多卡DDP训练
用的https://universe.roboflow.com/deneme-yz/sigara-deneme/dataset/2 数据集进行训练的。原创 2024-05-27 11:15:14 · 896 阅读 · 0 评论 -
yolov10 快速使用及训练
模型可以官网下载:wget -P {HOME}/weights -q https://github.com/jameslahm/yolov10/releases/download/v1.0/yolov10n.pt。图片:wget -P {HOME}/data -q https://media.roboflow.com/notebooks/examples/dog.jpeg。安装包:pip install -q git+https://github.com/THU-MIG/yolov10.git。原创 2024-05-25 19:26:28 · 443 阅读 · 0 评论 -
实时声音语音降噪算法 noisereduce使用;Nvidia broadcast、SoX、DeepFilterNet、mossformer2
Nvidia broadcast(推荐)Nvidia卡的官方下载broadcast软件也可以尝试下测试效果非常好,直接下载运行就不用管了,还有其他对声音视频加强功能在线体验地址测试也是输入文件必须要转成单声道,采样率是16000;成功降噪识别,下面降噪后波形图可以明显看出SoX(推荐)原创 2024-05-24 11:35:50 · 197 阅读 · 0 评论 -
各大模型厂商API使用:百度、阿里、豆包、kimi、deepseek
文档:https://platform.deepseek.com/api-docs/zh-cn/创建应用即可获取key。原创 2024-05-22 09:43:20 · 1458 阅读 · 0 评论 -
AIGC Lumina-Next-T2I 中文文生图模型
Alpha-VLLM/Lumina-Next-T2I 与 google/gemma-2b 两个模型。demo.py 更改gemma路径。***:7860端口。原创 2024-05-20 17:45:00 · 134 阅读 · 0 评论 -
DIT 文生图transformer模型PixArt-Sigma、HunyuanDiT、Lumina-Next-T2I
在线体验网址:https://huggingface.co/spaces/PixArt-alpha/PixArt-Sigma在线体验网址:中文在线体验网址:原创 2024-05-20 10:47:44 · 229 阅读 · 0 评论