欢迎点击上面的蓝字关注 拂晓AI数字人
从起心动念,到开始动手实践,最后做第一个 AI 数字人,还是花了我不少时间的,最长的时间都耗费在心理斗争上了,真正做起来,第一次也就 5,6 个小时,基本上把全流程跑通了,如果第二次做的话,初步测算,一半时间就搞定了,再下一次可能时间再对半减。
数字人本质上还是一个视频,只是交互上比较单一,人始终是整个画面的核心。
一段完整的视频,拆解出来,就是文案+声音+图片+串联。
文案,比较简单,口播的速度一般 200 到 300 字每分钟,所以要制作一个一分钟的数字人视频,一段 300 字的小文章足够用了
声音,主要是文字转声音,声音里面包括声音所代表的性别,年龄,中国人还是外国人,方言还是普通话,还有播报的速度,可以直接自己录一段文字,进行训练,训练完成之后,再用自己的音色播报文字,也可以直接用内置声音。
图片数字人,也就是上传照片,生成一个属于自己的定制的数字人。这个要准备一张自己的帅帅的正面照片,上传到工具上就可以了,很简单。照片怎么来,我是用我自己的图片作为垫图,让 mj 画的。可以生成自己的卡通形象,也可以生成自己的正式照。
最后一步,串联,通过数字人制作工具,把图片,文字或声音上传,点击生成就可以完成一个完整的数字人口播视频了,如果有水印,需要字幕可以导入视频剪辑工具简单处理一下,就可以发布各大平台了。
下面是模板和工具链。
文案:200 到 300 字每分钟,chatgpt +爆款文章,爆款标题,可直接配成中英文翻译的
声音:我使用的平台现有的,调整一下播放速度,听着舒服就可以。
图片数字人:一次制作多次使用,使用 heygen 直接传图片生成。
串联:剪映,主要配字幕,去水印,调分辨率适配不同平台。
做出来的效果:见 山河一景
我的免费星球,个人 IP、AI数字人、AI 编程的学习感悟和经验分享,欢迎关注。
如果对你有用,欢迎点赞,在看,转发