jju_-CSDN博客

原创 w6--语音合成和识别 API 报错调试记录

在开发语音交互功能时，我遇到一个持续报错的问题：API 提示无法识别。为了排查问题，我编写了一个音频格式修复工具，并使用日志和可视化手段定位原因。

2025-05-12 22:57:05 4

原创项目初览5--阶段性小结（涉及多模态部分）

完成情况：技术细节：存在问题：改进计划：完成情况：技术细节：存在问题：改进计划：完成情况：技术细节：

2025-05-05 22:31:46 252

原创项目初览4--阶段性小结（涉及LLM）

完成情况：技术细节：存在问题：改进计划：完成情况：技术细节：存在问题：改进计划：完成情况：技术细节：存在问题：改进计划：

2025-05-05 22:00:25 246

为了满足不同用户对角色风格的偏好，我实现了风格参数化控制系统，通过调整提示词和模型参数，可以在保持专业性的同时实现动漫、写实或绘画风格的精确切换。：实现了基于规则和机器学习的混合情感分析系统，能够捕捉文本中的情感和语气变化，并据此动态调整语音合成参数，使语音表达更加自然。：实现了一系列音频后处理技术，包括噪声抑制、均衡器调整和动态范围压缩，提高了语音的清晰度和专业感。：实现了基于能量变化率的口型切换阈值动态调整和过渡帧插值技术，避免了口型切换时的生硬感，提高了动画自然度。

2025-05-05 15:36:11 1350

原创项目初览3--语音交互模块

技术概览- 语音识别（ASR）：将用户语音转换为文本 - 文本处理：利用RAG（检索增强生成）系统分析查询- 语音合成（TTS）：将AI响应转换为自然语音- 方言检测：自动识别用户使用的方言- 音频处理工具：处理音频编码、解码和临时存储

2025-04-30 00:13:54 100

原创 w4--本地部署数据集生成&&语音交互模块

在接下来的阶段，我们将继续优化数据质量并扩展应用场景，期待这个项目能为花艺教育和专业咨询提供更丰富的智能化支持。

2025-04-28 14:35:02 281

原创 w2、3--多模态集成：文生图模型原理&&API调用

扩散模型的核心思想是通过一个逐步加噪和去噪的过程。训练时学习如何将被完全破坏的数据恢复为原始数据，推理时则从纯随机噪声开始，逐步"去噪"生成有意义的数据。

2025-04-22 13:29:39 699

原创项目初览2--图像生成功能

首页进行知识查询时可选择生成图像，既有文字解释，又有图像作为参考。

2025-04-22 13:15:21 395

原创项目初览--知识查询功能

项目已经完成了一个功能较为完整的插花艺术AI顾问系统的骨架，核心的RAG系统设计合理，API接口完备。但多模态功能（语音、图像）仍处于框架阶段，缺少实际实现；用户界面也需要进一步完善。项目的设计表明已经考虑到了API调用的成本和效率问题，通过查询分类和本地模型来优化。下一步可能需要完成模态功能的实际实现、丰富知识库内容、完善用户界面，以及进行系统性能测试和优化。

2025-04-14 20:12:44 995

原创 w1--RAG+LLM api的简易实现

RAG全称是Retrieval-Augmented Generation(检索增强生成)，一句话解释就是：把问题和相应的参考资料一起给大模型，以期望得到效果更好的模型表现。

2025-04-05 22:32:17 1942

原创 LeetCode Day1 水壶问题

再次，把一个不满的桶里面的水倒掉是没有意义的。如果其中一个水壶的水量等于z，或者两个水壶的水量之和等于z，那么可以得到目标水量，返回true。而只要满足 z≤x+yz\leq x+yz≤x+y，且这样的 a,ba, ba,b 存在，那么我们的目标就是可以达成的。因为观察所有题目中的操作，操作的结果都至少有一个桶是空的或者满的；如果 y 壶不为空，那么 x 壶肯定是满的，把 x 壶倒空，然后再把 y 壶的水倒入 x 壶。我们认为，每次操作只会让桶里的水总量增加 x，增加 y，减少 x，或者减少 y。

2024-01-29 00:19:27 580 1