多模态RAG及SQLRAG方案总结、大模型应用中的追问及Agent操作UI逻辑思考

一、GPT4O引导追问以及Agent操作电脑、手机屏幕的思考

早上，社区有几个有趣的话题，引发出一些思考，很有趣。

1、关于GPT4O引导追问的功能原理及产品逻辑

这个是今天社区早上的一个小讨论，起因是成员发现，GPT4o那个会引出下N个问题保持持续对话的输出效果不错，是4o结尾会问用户一些问题。这个是如何做的？感觉也是为了问而问。

这个其实就是追问，比如Ai搜索里面的。追问是产品设计，跟传统搜索一样来的，为了二次引发点击，增加交互次数，假设后面开始有收益了，有广告了。每次追问新的点击，都能产生若干次点击，那就是新的流量，就能挣钱了。从技术上看，这是一种能力，会专门微调的。之前试过还试过基于KG做追问。需要人工构造一些追问的样本，做SFT。现在用户的角度，怎么追问会更好，更高质量，用户会更爱点。

所以，这其实就是为了问而问，只是差别不一样而已。但是，追问其实还有体验兜底的作用，就是用户意图澄清，通过追问的方式把用户真实想问的东西牵出来。这是一石二鸟的打法。另外的，再扩展，这个追问的能力，还能用在别的地方，那就是query rewrite，quey expansion，就是输入侧控制。并不是只能打一个点。这就是技术的魅力。技术组产品结合的魅力。

再进一步的，GPT4O的追问至少有两类，一类是这为了让用户补充细节，这可以联想做客户系统时候的追问填槽，就是上边说的澄清类似。一类是进一步深入对话。不过4o他们现在搞了这个，其实就有很多样本了，可以实际看用户有没有按照这个追问去继续聊，就可以用这个去持续改善这方面能力。

但是，再扩展一个话题，你们觉得所谓靠用户点踩，做数据飞轮成立么？

个人观点是不成立的，因为太主观不可控，乱点，不点，恶意点的情况都会存在。所以，很多方案说在线自学习，其实都是很扯淡的，实时根据用户反馈，去丢模型在线终身学习。这个我们之前也讨论过，很扯淡，需要人工参与。这种假想只适用于人工标注平台，因为目标就是为了拿标注数据。但平台给用户，目标不一样，因此就不成立了。所以，更倾向于一个结论。这种点踩数据，价值在于做用户需求统计，假设是用户如果很在意这种问题，那么可能这个问题可能比较重要，会点，这种统计型数据相对来说比较好利用起来。而不是用来做微调训练。

那么，感觉对用户也要有一些分析，比如找出其中一向喜欢捣乱瞎点的筛掉，留下那些比较认真的是否可行？ 答案是忙不过来，兔有百窟。

又如，根据用户对话行为可以基本评判用户的素质，低素质用户甚至要降权，技术上需要精确的session管理。但这个并不妥，因为一是难识别，二是降权反产品逻辑，杀容易自损，反留存率目标。如果用户量很少，即使记录页面停留时间、记录复制按钮点击、记录下一步操作。这些数据收集上来，不过几百条，根本看不出趋势。人都不用了，那就更难了。

所以，这些事情顺下来，你会觉得哪哪都是窟窿。

2、关于Agent操作手机、电脑屏幕的一个实现逻辑原理

文章（https://mp.weixin.qq.com/s/kSUu_eHayr9MQeab2ryJrw）中关于Agent的几个点看起来是挺有收获的。

其中有问题比较有趣，在处理搜集、整理、纯文本的任务还比较好用，但是带有复杂的浏览器操作的时候会卡住。是不是因为国内网页网站可能设计得并不够好，限制了AI的能力增长？

对应的回复是，首先第一个并不是因为网页本身设计不好，我们叫点儿背不能怪社会。大部分人都可以用，为什么Agent不能用呢？我们更多思考的是这个问题。大家仔细体会可以体会到一个问题，当前通用Agent的产品，想要落地，有一个“木桶原理”不能有明显的缺项。

为什么（Agent）会找不到输入框？有几个可能，第一个可能视觉理解能力不如人，如果有弹窗遮住这些问题，可能是处理意外情况的这种能力不够，再深度推理的话，泛化能力不够，最终归结为它基础能力上的某一个缺项。

Agent真正产生实用价值，文本处理、思考、操作、环境感知和理解、应用工具和调用工具、反复尝试等能力，不能有明显的短板。有明显的短板存在，就会导致应用成功率急剧下降。所以一直坚持所有的模型都会做，包括语言、多模态的Agent。

顺着这个，如果真的要去做电脑或者手机的操作，那么入口就是对屏幕的理解，这个理解的任务的本质是目标检测+后续的决断。实就如微软开源的ominparser，代码: https://github.com/microsoft/OmniParser/tree/master，模型: https://huggingface.co/microsoft/OmniParser-v2.0，Demo：https://huggingface.co/spaces/microsoft/OmniParser-v2。

而就目标检测而言，挑战在于多样性，因为网页设计千变万化，并且还有是假链接。

核心还是数据多样性如何保障，以及如何做网页交互，比如遇到假链接如何反馈出来。而进一步的，这个不单单是用于agent，很接近的就是当前的爬虫系统，其实也是很难做到统一性的，网页的内容组织各异。

而进一步的，去看如何操作电脑，其实有一一些开源项目，如下面这个例子：

代表性的，可以看看https://github.com/browser-use/browser-use

二、语音数据侧、多模态RAG及SQLRAG方案

1、数据侧进展

开源语音数据进展，《ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5》(https://arxiv.org/abs/2409.18584)发布，ChildMandarin和SeniorTalk两大语音数据集，覆盖3-5岁低幼儿童和75岁及以上的超高龄老年人，可以为面向儿童与老年人的语音识别、语音理解、语音分析等技术的发展提供宝贵资源。

儿童数据集Github地址：https://github.com/flageval-baai/ChildMandarin，HuggingFace地址：https://huggingface.co/datasets/BAAI/ChildMandarin。老年人数据集，Github地址https://github.com/flageval-baai/SeniorTalk ，HuggingFace地址：https://huggingface.co/datasets/BAAI/SeniorTalk

2、RAG相关技术总结侧进展

首先，在多模态RAG方面，Awesome-RAG-Vision：计算机视觉领域中检索增强生成（RAG）总结，涵盖图像理解、视频理解、视觉生成等多领域应用的研究论文和教程资源: https://github.com/zhengxuJosh/Awesome-RAG-Vision，是很好的索引，包括面向图像的，视频的，以及混合多模态的。

同样的，关于RAG的技术汇总：Awesome-RAG：https://github.com/Danielskry/Awesome-RAG，指引的都不错，也可以备查。

也有SQLRAG方案，《Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records》，https://arxiv.org/pdf/2403.09226，核心思路是将文本到SQL生成与检索增强生成（RAG）相结合，以使用EHR和索赔数据回答流行病学问题，通过在文本到SQL过程中集成医学编码步骤来提高性能。

可以看其中召回sql对的逻辑，重点看这个图：

核心逻辑在医疗编码步骤是如何集成到文本到SQL过程中的？

技术实现逻辑如下：

首先，使用大模型从自然语言问题中提取医疗实体。接着，将这些医疗实体插入到SQL查询中作为占位符（例如，[condition@disphagia]）。

然后，使用SapBERT嵌入模型计算每个实体与SNOMED本体术语的余弦相似性，选择前50个匹配项。通过进一步的LLM提示验证是否应将该代码分配给输入实体，从而调整占位符。

最终生成的SQL查询包含了归一化后的医疗代码，可以在符合OMOP CDM的数据库上正确执行，以检索所需的数据。

这种占位符其实就是符号化的方法，可以提高一定的泛化性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述