- 博客(11)
- 收藏
- 关注
原创 w6--语音合成和识别 API 报错调试记录
在开发语音交互功能时,我遇到一个持续报错的问题:API 提示无法识别。为了排查问题,我编写了一个音频格式修复工具,并使用日志和可视化手段定位原因。
2025-05-12 22:57:05
4
原创 项目初览4--阶段性小结(涉及LLM)
完成情况:技术细节:存在问题:改进计划:完成情况:技术细节:存在问题:改进计划:完成情况:技术细节:存在问题:改进计划:
2025-05-05 22:00:25
246
原创 w5--文生视频模块的技术解析
为了满足不同用户对角色风格的偏好,我实现了风格参数化控制系统,通过调整提示词和模型参数,可以在保持专业性的同时实现动漫、写实或绘画风格的精确切换。:实现了基于规则和机器学习的混合情感分析系统,能够捕捉文本中的情感和语气变化,并据此动态调整语音合成参数,使语音表达更加自然。:实现了一系列音频后处理技术,包括噪声抑制、均衡器调整和动态范围压缩,提高了语音的清晰度和专业感。:实现了基于能量变化率的口型切换阈值动态调整和过渡帧插值技术,避免了口型切换时的生硬感,提高了动画自然度。
2025-05-05 15:36:11
1350
原创 项目初览3--语音交互模块
技术概览- 语音识别(ASR) :将用户语音转换为文本 - 文本处理 :利用RAG(检索增强生成)系统分析查询- 语音合成(TTS) :将AI响应转换为自然语音- 方言检测 :自动识别用户使用的方言- 音频处理工具:处理音频编码、解码和临时存储
2025-04-30 00:13:54
100
原创 w4--本地部署数据集生成&&语音交互模块
在接下来的阶段,我们将继续优化数据质量并扩展应用场景,期待这个项目能为花艺教育和专业咨询提供更丰富的智能化支持。
2025-04-28 14:35:02
281
原创 w2、3--多模态集成:文生图模型原理&&API调用
扩散模型的核心思想是通过一个逐步加噪和去噪的过程。训练时学习如何将被完全破坏的数据恢复为原始数据,推理时则从纯随机噪声开始,逐步"去噪"生成有意义的数据。
2025-04-22 13:29:39
699
原创 项目初览--知识查询功能
项目已经完成了一个功能较为完整的插花艺术AI顾问系统的骨架,核心的RAG系统设计合理,API接口完备。但多模态功能(语音、图像)仍处于框架阶段,缺少实际实现;用户界面也需要进一步完善。项目的设计表明已经考虑到了API调用的成本和效率问题,通过查询分类和本地模型来优化。下一步可能需要完成模态功能的实际实现、丰富知识库内容、完善用户界面,以及进行系统性能测试和优化。
2025-04-14 20:12:44
995
原创 w1--RAG+LLM api的简易实现
RAG全称是Retrieval-Augmented Generation(检索增强生成),一句话解释就是:把问题和相应的参考资料一起给大模型,以期望得到效果更好的模型表现。
2025-04-05 22:32:17
1942
原创 LeetCode Day1 水壶问题
再次,把一个不满的桶里面的水倒掉是没有意义的。如果其中一个水壶的水量等于z,或者两个水壶的水量之和等于z,那么可以得到目标水量,返回true。而只要满足 z≤x+yz\leq x+yz≤x+y,且这样的 a,ba, ba,b 存在,那么我们的目标就是可以达成的。因为观察所有题目中的操作,操作的结果都至少有一个桶是空的或者满的;如果 y 壶不为空,那么 x 壶肯定是满的,把 x 壶倒空,然后再把 y 壶的水倒入 x 壶。我们认为,每次操作只会让桶里的水总量增加 x,增加 y,减少 x,或者减少 y。
2024-01-29 00:19:27
580
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人