前言
该项目主要是为了好玩,花里呼哨,功能如下
- 采用了两个hub模型
pose_resnet50_mpii
和stylepro_artistic
- 可以用脚本爬取相应的b站视频作为视频素材(不推荐)
- 采用opencv将视频分割成每帧的图片好用来喂模型
- 调用了百度的tts语音将文本转为语音
- 调用图像剪辑库,将语音和视频融合,并且可以任意分割
最后结果视频是bomb_video.mp4
挺有意思的可以下载看看
视频地址
项目的Al studio 链接如下项目链接
设计由衷
对人形机器人比较感兴趣,特别是对人形机器人的集群,位姿变换有强烈的兴趣拉,一直在忙其他的事情没有机会学习,借这个机会算是入个门。
paddlehub的人体关键点模型
详细可以参考官方文档pose_resnet50_mpii
有几个地方是值得注意的:
- 和其他的hub模型相比,该模型的输入参数甚少
- 输出数据的格式略有瑕疵,如:
upper_neck
和head_top
两个参数,单词间以空格为链接符了
人体关键点之间的联系
参考该博客Python+OpenCV+OpenPose实现人体姿态估计 找到了点与点之间的关系,然后用cv2 将该部分连线起来
正常操作后的动图:
由于某个老哥是公众人物,博主这样搞别人有点小慌,
就用cv新建img 在划线,操作后的动图如下:
给视频融合语音
博主曾做过一个语音聊天机器人,完成了awake,asr,nlu,tts的部分。哈哈哈,可以小小的推荐一下小刘同学。博主,给这个机器人写了个插件中心。现在有语音交互,汉译英,发送邮件,爬取网易云音乐的功能。写的很粗糙,很多代码和文档都没有整理。当然,这个demo里面,我们只要用得上tts,图方便,直接用百度的tts python库将文本文件转为mp3文件
用moveipy 库融合音频与视频
具体可以看下博主的项目代码。
更详细的信息可以参考官网链接
为啥么用风格迁移去融合视频
主要还是胆小怕事啊,总不能给别人染个绿毛了。当然,个人是比较看好
人体解析模型的,可玩系数大,危险边缘疯狂试探~
总结
hub的创意赛还是非常好玩的,在本次demo里面博主将机器视觉与机器语音小小的都玩了一遍,看好人体姿态估计的发展前景!!!