国内虚拟数字人有多少是有水分的？

最新推荐文章于 2024-07-22 20:37:08 发布

duxiullf

最新推荐文章于 2024-07-22 20:37:08 发布

阅读量129

点赞数

文章标签：人工智能计算机视觉语言模型自然语言处理语音识别

本文链接：https://blog.csdn.net/duxiullf/article/details/129741782

版权

因为一些原因，今天登录某营业厅app，发现他们也用上了虚拟数字人。刚好去年初我们也一直在做虚拟数字人，当时已经开始火爆市场了，不过后来年底疫情爆发后就不干了。今天发现有虚拟数字客服后我也是挺兴奋的，就特意去用了一下，结果却有点失落。

主要是：很多视频都是内置的，问啥都是返回文字或者一些推荐链接而已，不由让人怀疑这是用了个背景图是人物动态图吧！回想我们之前搞的虚拟数字人，我想也能理解吧，大厂水平我不评论，人家有人才搞。小厂的话也就跟风而已，实际没啥技术可言。当然我在这项目里面只是做javaweb端负责交互的。但是为了了解项目，我特意去搜资料想这里面涉及的Wav2lip算法。本想着能有啥收货，结果我在码云上发现了跟我们项目中的wav2lip吻合度100%的代码，码云不止一个账号有这东西，很多账号都有这项目。所以也就是说我们项目中的WAV2lip模块来自于别人写的开源小工具，连作者啥的都没改。这就是我们所谓算法工程师忙了很久搞出来的东西，开源的同时是哪来玩的小项目问题其实还是不少的，面向企业级要求的时候更是没办法应付。当客户提出各种问题的时候，看似算法工程师很努力在解决，然而每次代码更新看不到有变动。说实话，我怀疑我今天看到的虚拟数字人出自前公司之手，因为前公司一直跟他们有合作且看人物P图水平就知道了。之前算法工程师大言不惭说只要给她光捕设备，她能给我们造出一个能动能说1:1真人还原的虚拟数字人出来。然而当让她更改调用接口参数时候不会，最开始那接口非她写的，负责写接口的人做其他去了。后面交给她维护，结果不会，自己把东西写坏了让运维给她改我也是头一回听到程序员让运维找问题并改代码的。因为合成视频需要资源大，但客户提交合成任务web端不能不接收，所以我们采用引入kafka方式解决并发问题，她也不会使用kafka，怪kafka有盲区。。。、

几个模块：

语音识别合成-外采科大讯飞的

wav2lip：网上开源小工具

视频合成：让web端事先把文字拆了，然后合成语言后，听说视频一段一段拼接的，图文有不同步的，嘴唇和声音有不同步的。开源东西来的。。。

智能客服：公司自研的，不过算法端和web水得一笔，让我重构结果业务都不懂，没文档没人说，最后只是一个小小的模块被要求引进了springcloudalibaba+日志采集框架+xxx 然后要求分成十几个模块，我们私底下偷偷改为几个模块才勉强混过关。问我怎么划分模块的时候我想说：没必要划分，就一个智能客服模块：配点字典配点卡槽啥的基础数据后，把模板导入让算法端训练，没几个东西还能怎么分。重构完啥也改就直接用了。有个朋友说不要抱怨，微服务越多越能说明项目牛逼！！一个接口一个微服务，是挺牛逼的，哈哈哈！

数字人web端：应领导要求，还是微服务，数据库直接用MongoDB，无论基础数据还是其他数据。用智能客服做流程控制，普通话水平不高还真匹配不到，因为智能客服没那么智能，少个字可能就匹配不上了。推给用户的结果都是随机推的。

哎，不得不说，这个社会能力不是最重要的，骗钱水平到了什么都可以搞。就是不知道偌大的一个营运商竟没有有能力的人看出点破绽么？代码是要上交给他们的呀！

不过这个社会只要有关系，什么垃圾玩意都是可以拿来挣钱的。国内程序员很多，水军占8层以上。。。

duxiullf

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
国内虚拟数字人有多少是有水分的？

这就是我们所谓算法工程师忙了很久搞出来的东西，开源的同时是哪来玩的小项目问题其实还是不少的，面向企业级要求的时候更是没办法应付。智能客服：公司自研的，不过算法端和web水得一笔，让我重构结果业务都不懂，没文档没人说，最后只是一个小小的模块被要求引进了springcloudalibaba+日志采集框架+xxx 然后要求分成十几个模块，我们私底下偷偷改为几个模块才勉强混过关。视频合成：让web端事先把文字拆了，然后合成语言后，听说视频一段一段拼接的，图文有不同步的，嘴唇和声音有不同步的。
复制链接

扫一扫