基于视觉理解的大模型视频总结助手（Datawhale AI夏令营）-CSDN博客

本文链接：https://blog.csdn.net/m0_72798658/article/details/141176191

在Datawhale AI夏令营中需要做出一个大模型应用开发产品，我有一个不太成熟的想法，记录在此以便以后自己深度思考。

我希望能做出一款基于视觉理解的大模型视频总结助手。
想法由来：我平时在看视频的时候，经常会觉得视频的知识密度太低。比如有些视频如果把字幕提取出来，那么效率会非常高，但是做成视频之后就挺浪费时间的（比如听各种讲座、课程等）。但是不可否认的是，视频形式更有助于充分地理解视频内容。所以我想做一个能够“理解”视频的一个助手，将一个视频的字幕与“关键片段”保留下来，去除冗余的信息，能帮助用户更有效率地提取信息。此处涉及到对“关键片段”的定义，我认为所谓“关键片段”指的就是更加有助于视频理解的片段，可能包括总结概要、强调的重点、幽默讽刺效果、强视觉吸引力的片段等。而如何理解“关键片段”就成了问题的关键，需要我们想办法去解决。

目前已经有很多视频总结小助手，坦白说，我没有仔细调研过他们的原理，我不知道他们是扒下来字幕来理解文字还是理解视频。依照我的想法，我们的小助手不是基于语音识别，而是基于理解视频本身，也就是从视觉方面入手。我们也可以用多模态的方法结合二者，从而达到更好的效果。另外，“抽取关键片段”是我认知内任何一个总结助手都没有做到的、或者至少是不够出彩的。也许市面上已经有相关的产品了，从这一点来说也可以探讨一下为什么这个产品为什么没有极广泛地流行开来，以及我们可以从哪些方面加以改进、以促进我们产品的传播。

目前大模型应用如火如荼，许多应用、想法都已有先行者。我认为在开发产品的过程中，我们应当从精细领域着眼，找到应用场景，而非做通用大模型（显然我们在宏观方面是拼不过大厂的）。例如北大的法律大模型就是一个优秀的例子，他们着眼于法律这一领域开发的法宝AI平台已可以较好地充当“电子律师”的职务，也受到了广泛关注。

以上是我的一个小创意，我也将针对这个想法进行深层次的调研。欢迎各位读者提出意见、建议、疑问，以助我更好地完善自己的想法！