✨ 1: RealtimeSTT
RealtimeSTT 是一款易用、低延迟的实时语音转文字库,适用于语音助手等应用。
RealtimeSTT是一个易于使用、低延迟的实时语音转文本库。它通过监听麦克风并将语音转录为文本,是语音助手和需要快速且精准的语音转文本应用的理想选择。其主要特点包括:
语音活动检测:自动检测用户何时开始和停止说话。
实时转录:实时将语音转录为文本。
唤醒词激活:可通过预设的唤醒词启动录音。
地址:https://github.com/Ikaros-521/RealtimeSTT_LLM_TTS
✨ 2: ComfyUI-Bringing-Old-Photos-Back-to-Life
ComfyUI通过自动去抓和修复面部等功能提升旧照片的质量。
ComfyUI-Bringing-Old-Photos-Back-to-Life是一个用于增强旧照片或低质量图像的工具。该工具可以在ComfyUI中运行,具备自动擦除划痕和面部增强的可选功能。使用该工具需要安装一些小型的检查点和VAE。
旧照片修复:可以用来修复老旧、损坏或低质量的照片,使其恢复到原有的清晰度和细节。
面部增强:通过先进的面部检测和增强技术,可以进一步提高照片中的面部细节和质量。
划痕去除:自动检测和去除照片中的划痕和杂质,使照片看起来更加完美。
地址:https://github.com/cdb-boop/ComfyUI-Bringing-Old-Photos-Back-to-Life
✨ 3: Mixture-of-Agents
Mixture-of-Agents利用多层大型语言模型来提升AI性能,并通过Gradio界面提供直观交互。
Mixture of Agents(简称MoA)是一种前沿的技术方法,通过整合多个大型语言模型(LLMs),提升AI性能。MoA采用分层架构,每一层都包含多个LLM代理,从而利用开源模型实现最先进的结果。
多模型整合:结合多个AI模型的响应,提供更全面和细致的输出。
可定制模型选择:用户可选择并配置参考模型和聚合模型。
可调节参数:通过自定义温度、最大标记数和处理轮次微调生成过程。
实时流式生成:体验流畅的响应生成过程。
直观的Gradio界面:用户友好的界面设计,采用大地色调主题。
灵活的对话模式:支持单轮次和多轮次对话。
地址:https://github.com/severian42/MoA-Ollama-Chat
✨ 4: Screen to action using LLMs
利用大语言模型,通过屏幕内容自动生成行动或任务。
“Screen to action using LLMs” 是一个通过大语言模型(LLM)将屏幕内容转换为具体动作的创新项目。此项目受adept.ai
、rewind.ai
和Apple Shortcut
等灵感启发,使用Rust和WASM技术构建。
自动CRM填充:录制销售人员的屏幕内容,提取销售对话记录,并自动填充到CRM系统中,提升工作效率。
自动摘要生成:对屏幕内容进行实时文本提取,并通过LLM生成相应的摘要,方便回顾和整理信息。
自动动作触发:基于屏幕内容进行特定关键词或图像的识别,触发自动化操作(例如,每次看到狗的图片时自动发送推文)。
记忆扩展应用:利用LLM对记录的屏幕内容进行分析和处理,扩展个人记忆能力。
地址:https://github.com/louis030195/screen-pipe
✨ 5: gptpdf
gptpdf 是一个利用VLLM解析PDF为Markdown的工具,几乎完美支持数学公式、表格等。
GPTPDF 是一个使用视觉大模型(如 GPT-4o)将 PDF 文件解析成 Markdown 文件的工具。它主要用于高效地解析 PDF 文档中的排版、数学公式、表格、图片、图表等内容,并将这些内容转换为结构化的 Markdown 格式。其显著特点是简单且成本低,每页平均费用为 $0.013。
地址:https://github.com/CosmosShadow/gptpdf
更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具