💡 字多 ≠ 有价值
周报不只是为了表现工作量,而更是为了给团队提供最基本的“信息透明”。
山大公历:第三周
汇报人:王竟择
日期:2025-03-09
本周重点
1.任务进展
- 确定项目主题:全维会议链智能追录系统 | OmniMeetProTrack
- 明确技术要点:前后端分离开发(VUE&SpringBoot),ASR(自动语音识别),CLIP(视觉识别),多模态数据融合,RAG(增量学习&知识链条),MultiAgent Cooperation
- 制定项目目标:构建一个智能化、多模态、可持续学习的会议追踪和分析系统,助力企业和团队提升会议效率,在具有基本的会议管理功能的基础上,实现全方位信息捕捉、高效知识管理、深度项目跟踪及智能决策支持。
- 设计架构:
本周王竟择与韩林琦共同完成了明确主题,参考可用技术,架构设计,设计功能需求等任务。项目正式开始,预计周一即十号进行开题答辩,后续可以开始技术开发。
2.相关数据
暂无训练和测试数据
3.风险同步
存在哪些风险、对应的对策是什么。
学校提供的 API 效果卡顿,不能处理全学校的并发访问量,导致咱们无法调用来测试与开发。解决方法:调用官方的 DeepSeek 接口,后序改为学校接口。保底方案:氪金
下周计划
- 寻找合适的数据集:要求会议数据包含ppt、语音文件、文本文件。最好是同一个项目先后的三次会议,不同领域的项目会议。三个项目即可。数据规模 3×3。
- 模型调用测试:deepseek,ASR(腾讯、讯飞、阿里),CLIP(OpenAI)。搭建测试框架,调用模型。
- Prompt 设计和测试:依赖于学校提供模型接口,可暂用 DS 的官方接口,下周一开题结束后与相关负责老师沟通确认。
- 前后端开发:找到贴合业务场景和符合功能需求的前后端框架,跑通框架,持续添加功能。
- 持续学习:RAG,Agent,数据库
工作安排
王竟择:找数据,调模型,低版本 prompt 测试运行结果
韩林琦:找数据,找前后端框架,构建数据库
陆晓天:基于前面的框架和数据库开发后端功能,初步完成基本增删改查工作
孙颢宁:基于前面的框架尝试修改前端页面,设计页面
李欣艳:基于前面的框架尝试修改前端页面,设计页面
思考
这个项目比较具有创新性,创新点在多模态数据的融合、增量学习机制的 RAG 和多Agent 协作工作,同时还存在很多技术难点:
- 没有 RAG 数据库开发经验
- 软件系统级功能的 prompt 设计比较耗经历和时间
- 能够找到合适前后端框架,没有会前端开发的成员,UI 是产品的第一印象,总之非常重要。
Source
技术开发文档:OmniMeetProTrack 全维会议链智能追录系统——山东大学软件学院创新实训项目博客-CSDN博客
代码仓库:OMPT-SDUers/OmniMeetProTrack
个人博客:
韩林琦:https://blog.csdn.net/jinrissq?type=blog
王竟择:https://blog.csdn.net/Lagrange0100?type=blog
陆晓天:https://blog.csdn.net/2301_79707986?spm=1010.2135.3001.5343
李欣艳:https://blog.csdn.net/weixin_74054935?spm=1011.2266.3001.5343
孙颢宁:https://blog.csdn.net/2301_79726540?type=collect
山大公历:第四周
汇报人:王竟择
日期:2025-03-16
本周重点
第四周周一的举行开题答辩,本项目没有通过,处于待定状态,几位老师给出了重要修改意见,更改出第二版项目计划。
1. 任务进展
重要修改点:
- 开发正一个完整的会议系统,构建类似钉钉这样具备基本会议创建、结束、管理以及日历提醒等功能的集成系统,不仅限于停留在接入 deepseek 的会议内容分析系统。
- 增加实时问答功能,上一版本是会议结束后将会议音频和 ppt 等会议内容上传分析。修改后会议中有 AI 的助手可以实时提问,AI 助手可检索本次会议从开始到现在和本次会议之前的所有会议内容,给出更有针对性和全局性的思考回答。
- 增加会议外工作辅助问答助手,还可对会议场次、时长等数据进行统计和可视化。
- 这一点延续前一版计划的安排:实现视频会议中实时记录语音内容,会议后对当前会议音频、文档、图片等内容数据的处理与分析,存储与管理。
2. 数据支持
AliMeeting语料库,包含120小时真实记录的中文会议数据,包括8通道麦克风阵列采集的远场数据以及每个参会者的耳机麦克风采集的近场数据。AliMeeting总共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。训练集和验证集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。训练和验证集中参与会议的总人数分别为456人和25人,并且参会的男女比例人数均衡。
CMMI项目文档资料,包含公司软件开发过程中的各类项目的真实文档和模板,共计516.4MB。
3. 架构设计更新
删除会议视频处理功能,改为只处理白板和图片数据。
系统优化设计:(后期)
1. 采用多智能体协作机制(流水线),对总任务进行分解,根据实际运行速度与任务完成情况,评估子任务难度,根据难度等级调用所需推理能力的模型,降低使用者的调用成本,节省模型供应方的计算资源,避免模型供应方并发量导致的系统不稳定问题。
2. Agent(LLM)以及其他处理模型前设有缓冲区,这是因为系统往往需要同时接收多个请求,而直接将所有请求传递给 Agent 处理可能会造成资源竞争和响应延迟。通过buffer保证请求的有序性,平滑突发流量,避免系统瓶颈模块给其他模块带来空闲等待。
3. 对于流水线采用并发异步处理,尽可能使阶段任务完成的速度相同,处理系统瓶颈,避免拥塞,加快流水线整体工作效率。
下周计划
环境搭建与技术学习,确定好项目框架
韩林琦:用墨刀设计项目原型、学习项目前后端搭建
王竟择:用墨刀设计项目原型、学习项目前后端搭建
陆晓天:学习项目前后端搭建、实现会议的基本管理
孙颢宁:学习项目前后端搭建、学习实现视频和语音的技术
李欣艳:学习项目前后端搭建、学习实现视频和语音的技术
思考
这次项目的开题给了很重要的软件开发指导:不能由技术出发来设计业务场景,这是为了吃醋下饺子。面向场景,面向业务,面向对象来设计我们要开发的产品。这些设计好后才是考虑用什么技术来实现。
Source
山大公历:第五周
汇报人:王竟择
日期:2025-03-23
本周重点
本周是这个项目第一阶段的第一周,本周的任务都是学习任务,学习会议基本的功能实现和前后端的实现,由于我们的组员都是大数据专业很多软件开发和 AI 的知识需要现学,所以设定了一周的学习时间。我和韩林琪同学设计的产品的原型图。
陆晓天,孙颢宁,李欣艳三位同学找到了很多技术支持的项目资源,学习了很多前后端的开发知识和会议功能开发技术,可以在他们的个人博客中进行查阅。
下周计划
实现基本的会议功能,会议管理,实现日历功能,一键通知参会人员功能,对会议信息进行统计的功能。
韩林琦:完成项目前后端的搭建,初步学习CLIP、ASR等技术
王竟择:完成项目前后端的搭建,初步学习CLIP、ASR等技术
陆晓天:实现会议的基本管理
孙颢宁:实现视频和语音的技术
李欣艳:实现视频和语音的技术