智匠MindCraft 1.2.11版本发布：全面提升多模态能力，新增视频识别功能

最新推荐文章于 2024-10-08 20:27:53 发布

智匠MindCraft Al

最新推荐文章于 2024-10-08 20:27:53 发布

阅读量174

点赞数 8

文章标签：人工智能 gpt ai 功能测试语音识别实时音视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_85549225/article/details/142450370

版权

本次更新中，智匠MindCraft推出全新的视频识别功能，进一步强化了其多模态能力，支持视频/图片合成及多模态智能体的API接口调用。以下是新功能亮点：

视频上传识别功能：

用户现可直接上传视频至智匠MindCraft平台，选择GLM4-V-PLUS或Qwen-VL-Max进行视频识别。支持最大8K和32K tokens上下文长度的视频处理，但建议上传较短视频，以优化识别效果。

视频生成优化：

新增MiniMax模型，优化视频合成效果。新增“帮我想”功能，用户可选择由AI自动生成提示词或输入初步思路，由AI进一步完善。

文生图应用功能：

平台新增文生图功能，支持三种领先的模型：flux.1, DALL-E 3, 和Cogview-3-Plus。用户可以使用“帮我想”功能，生成高质量图像提示词。

开发者平台新智能体接口：

引入多模态智能体接口chat_bot_v1，支持语音输入及文字+语音输出，具备情绪识别能力。

语音识别模型升级：

升级通用语音模型识别接口，增加阿里SenseVoice支持，实现多国语言、情绪识别及音频状态（如说话、笑声、掌声等）的准确识别。

智匠MindCraft Al

关注

8
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。