wangzha_m-CSDN博客

原创让TA说话 - 图片、动画、语音相结合

如何让图片开口说话，或者让视频里的人换一段话？开源的技术已经做的不错了。

2024-03-07 00:13:22 929

原创 Stable Diffusion 相关网站总结

civitAI，sd开源社区，大部分开源模型都从这里下载：lightflow，一键复制流，有很多大神灵活使用sd的例子：

2024-02-22 19:45:50 435

原创 Stable Diffusion 优质图生成技巧

在之前的博客中，为了追求功能的准确，我大都没开各种修复功能，并且都是使用很低的分辨率，这就导致以前博客中的图都不美观。今天专门分享一次如何出优质图、高清图、精致图、看上去就很美的图。

2024-02-22 19:26:54 1225

原创 Stable Diffusion 插件AnimateDiff

AnimateDiff可以制作动图，以插件的方式集成到sd的webUI，本文介绍了AnimateDiff的安装与使用。

2024-02-21 11:16:52 1596

原创 float浮点数转音频文件wav

java要是完成类似的功能就比较复杂。python将numpy.ndarray转为音频文件wav，只需要几行代码。

2024-01-24 11:27:14 510

原创 paddle系列报错 Segmentation fault

这行代码的意思就是配置LD_LIBRARY_PATH这个环境变量，这是临时配置，关闭控制台后就失效了，需要长久生效的配置需要自己改配置表。paddlepaddle_gpu自从2.1.3之后，在一些linux环境中部署总会报错。paddle的cpu版本并不会报错。但是，经过我的实验，python代码中配置，依然会报错。我主要是参考了这两个博客，我简化了指令。

2024-01-23 16:02:05 1018 2

原创 Stable Diffusion ControlNet 与艺术字（2）

如果使用的字体直线多、棱角分明，生成的图中字上的内容和提示词差距越大。比如Office带的娃娃体，可以看到字上面一点儿花的元素都没有，如下图。在笔直的字体上做了一些其他的尝试，也很难把提示内容加进去，我尝试不同的权重组合和提示词，发现最多只带有很少一部分的提示词内容。具体的配置参数写在了最后面，配置主要参考了博主。反向词：NSFW,worst quality,low quality,hand,people,提示词：Beautiful flowers in the sky,8k,realistic,

2024-01-10 19:25:28 600

转载 Stable Diffusion UNet

UNet是sd的核心模块，值得注意的是UNet预测的是噪声，整个生成过程就是一个去噪的过程。

2024-01-10 14:59:14 69

原创注意力机制中的qkv

从计算机视觉的角度解释注意力机制中的qkv的具体概念。

2024-01-09 16:26:55 5085 1

原创 Stable Diffusion CLIP

sd主要包含了3大块，VAE、CLIP和UNet。其中CLIP（Contrastive Language-Image Pre-training）主要是用来将提示词转为tokens，通俗的说，就是把文字转化为可以模型可以理解的信息。这些语义信息是77*768大小的向量，在UNet阶段一步一步嵌入进去，这样生成的图片就能附带提示词的内容，嵌入方式为cross attention。对输入text提取text embeddings的方式可以是其他的，目前sd主要使用OpenAI的CLIP。

2024-01-08 16:48:33 689

原创 Stable Diffusion VAE

Stable Diffusion 中VAE的编码和解码过程的直观展示。

2024-01-05 18:20:10 1655

原创 Stable Diffusion ControlNet 与艺术字

sd画的图可控性并不高，尤其是文字，比如我们想让sd生成一个带有汉字“王炸”的条幅，sd会生成条幅，但是汉字都是有形体，但是内容是不对的，如图：ControlNet为解决这一问题作出了突出贡献。sd是一种UNet，包含编码和解码的过程，文生图的过程就是字转为带有语义信息的token，并逐步附加到sd的decoder过程中。ControlNet同样也是将输入转为向量，逐步添加到生成过程。

2024-01-04 17:49:56 534

原创 Anaconda 3 下的 Spyder 的汉化报错处理

Anaconda 3 下的 Spyder 的汉化参照原文博客：http://www.lizenghai.com/archives/523.html汉化包下载：https://github.com/kingmo888/Spyder_Simplified_Chinese本人在汉化过程中遇见几个问题，特与大家分享经验。1.运行错误在参照原文博主的方法进行汉化中遇见问题，如下：...

2018-09-10 16:19:35 2149

(翻译后)学习信息在决策层上的自动分类

Fusing Texture,Shape and Deep Model-Learmed Information at Decision Level for Automated Classification of Lung Nodules on Chest CT--胸部CT上肺结节的“融合纹理”，形状和深层模型 - 学习信息在决策层上的自动分类--来源于IEEE，中英文对照版。

2018-06-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Funnyman_Ming的博客