本地化AI语音聊天voicechat2;改进版的Whisper模型,速度快50%;多代理创建儿童图画书

✨ 1: voicechat2

voicechat2是一款使用WebSockets进行快速、本地化AI语音聊天的软件。

在这里插入图片描述

Voicechat2 是一个快速、完全本地化的AI语音聊天系统,采用WebSockets技术。它运行在高性能硬件上,例如7900级的AMD RDNA3显卡或4090显卡,可以实现低至1秒甚至300毫秒的语音到语音延迟。它使用了多个先进的AI模型和工具,包括Whisper、Llama和Coqui TTS。

人机对话:实现与AI助手的实时语音互动,如智能客服、AI陪聊等。
教育培训:实时语音指导和解答问题,为学生提供即时反馈。
远程工作和会议:提高线上沟通效率,减少语音延迟,保证会议的流畅进行。
游戏:在多人联机游戏中进行实时语音交流,提升游戏体验。

地址:https://github.com/lhl/voicechat2

✨ 2: Real-time Live Streaming Digital Human

实时直播数字人通过少样本学习在30和40系列显卡上流畅运行,提供交互体验。

在这里插入图片描述

实时直播数字人(Real-time Live Streaming Digital Human) 是一项基于少样本学习技术的项目,旨在提供流畅且互动性强的直播体验。该系统能够在NVIDIA 30和40系列显卡上高效运行,实现每秒25帧以上的实时性能。

地址:https://github.com/kleinlee/DH_live

✨ 3: Whisper Medusa

Whisper Medusa 是改进版的Whisper模型,通过每次迭代预测多个标记加速语音转录,速度比 OpenAI 的 Whisper 快 50%,由以色列公司 aiOla 推出。

在这里插入图片描述

Whisper Medusa

Whisper Medusa是基于Whisper模型的一种高级编码器-解码器模型,用于语音转录和翻译。通过在每次迭代中预测多个标记(tokens),Whisper Medusa显著提高了推理速度,同时只带来少量的词错误率(WER)下降。模型在LibriSpeech数据集上进行训练和评估,表现出强大的速度和准确性。

地址:https://github.com/aiola-lab/whisper-medusa

✨ 4: Agentic Story Book Workflow

Agentic Story Book Workflow 是一个基于AutoGen的多代理流程,用于创建儿童图画书。

在这里插入图片描述

Agentic Story Book Workflow是一个基于AutoGen的多代理工作流程框架,旨在为儿童创作图画书。

该框架涉及不同的多代理协作方法,以下是其主要流程:

用户交互:User_Proxy代表用户,与Receptionist沟通以收集用户需求。
内容创作:通过GroupChat机制协作,各GroupChat有一个GroupChat Manager协调当前的对话者。在内容创作角色(如Story Editor、Storyboard Editor、Prompt Editor)中,设有Agent负责审查内容。如审查不过,GroupManager将其退回编辑者修改。
生成图像/视频/PPT:这一阶段由独立的Image Creator Agent处理,其内部包含两个子代理:一个负责AI图像生成,另一个负责审查生成的图像。

地址:https://github.com/breakstring/Agentic_Story_Book_Workflow

✨ 5: LiYing

自动化完成一般照相馆后期流程的照片自动处理

在这里插入图片描述

LiYing 是一套用于自动化证件照后期处理的程序,可以自动识别人体、人脸,纠正角度,更换背景,裁切证件照,离线运行。用户可以通过整合包或从源码构建使用该程序,同时需要下载相关模型。具体运行方式可通过CLI参数配置,也可以自定义证件照类型。程序制作初衷是为了帮助父母更轻松地完成工作。

地址:https://github.com/aoguai/LiYing



更多AI工具,参考国内AiBard123Github-AiBard123 公众号:每日AI新工具

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

go2coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值