我的第一个 AI 数字人,全过程拆解

欢迎点击上面的蓝字关注 拂晓AI数字人

从起心动念,到开始动手实践,最后做第一个 AI 数字人,还是花了我不少时间的,最长的时间都耗费在心理斗争上了,真正做起来,第一次也就 5,6 个小时,基本上把全流程跑通了,如果第二次做的话,初步测算,一半时间就搞定了,再下一次可能时间再对半减。

数字人本质上还是一个视频,只是交互上比较单一,人始终是整个画面的核心。

一段完整的视频,拆解出来,就是文案+声音+图片+串联。

文案,比较简单,口播的速度一般 200 到 300 字每分钟,所以要制作一个一分钟的数字人视频,一段 300 字的小文章足够用了

声音,主要是文字转声音,声音里面包括声音所代表的性别,年龄,中国人还是外国人,方言还是普通话,还有播报的速度,可以直接自己录一段文字,进行训练,训练完成之后,再用自己的音色播报文字,也可以直接用内置声音。

图片数字人,也就是上传照片,生成一个属于自己的定制的数字人。这个要准备一张自己的帅帅的正面照片,上传到工具上就可以了,很简单。照片怎么来,我是用我自己的图片作为垫图,让 mj 画的。可以生成自己的卡通形象,也可以生成自己的正式照。

最后一步,串联,通过数字人制作工具,把图片,文字或声音上传,点击生成就可以完成一个完整的数字人口播视频了,如果有水印,需要字幕可以导入视频剪辑工具简单处理一下,就可以发布各大平台了。

下面是模板和工具链。

文案:200 到 300 字每分钟,chatgpt +爆款文章,爆款标题,可直接配成中英文翻译的

声音:我使用的平台现有的,调整一下播放速度,听着舒服就可以。

图片数字人:一次制作多次使用,使用 heygen 直接传图片生成。

串联:剪映,主要配字幕,去水印,调分辨率适配不同平台。

做出来的效果:见 山河一景

我的免费星球,个人 IP、AI数字人、AI 编程的学习感悟和经验分享,欢迎关注。

60856b2e99cf09f08b12682c431d878b.jpeg

如果对你有用,欢迎点赞,在看,转发

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
好的,数字识别是人工智能领域中比较经典的问题之一。以下是一个简单的数字识别的大作业实现思路,供您参考: 1. 数据集准备 首先,需要收集一些数字图片数据集,可以使用MNIST数据集,该数据集包含了大量的手写数字图片和对应的标签,可以用于训练和测试。你也可以自己收集一些数字图片,然后手动标记它们的标签。 2. 数据预处理 在数据集准备完成后,需要进行数据预处理,将图片转化为数字矩阵,并对数字矩阵进行归一化处理。 3. 模型建立 选择一个合适的模型,比如卷积神经网络(CNN),然后进行模型建立。可以使用Keras等深度学习框架进行建模。建模时,需要注意模型的层数、节点数、激活函数等。 4. 模型训练 将数据集分为训练集和测试集,然后进行模型训练。在训练过程中,需要选择合适的损失函数和优化器,并设置训练轮数和批次大小等超参数。可以使用交叉验证等技术来提高模型的泛化能力。 5. 模型测试 模型训练完成后,需要对模型进行测试。可以使用测试集对模型进行测试,并计算模型的准确率、召回率等指标。 6. 模型部署 模型训练和测试完成后,可以将训练好的模型部署到实际应用中。可以使用Python Flask等框架将模型封装成API,供其他应用调用。 总之,数字识别是一个非常有趣的人工智能大作业项目。希望上述的实现思路能够对您有所启发,祝您项目顺利完成!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拂晓 AI 编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值