独家 | 语义搜索可以利用大语言模型实现些什么？

最新推荐文章于 2024-10-08 07:31:46 发布

数据派THU

最新推荐文章于 2024-10-08 07:31:46 发布

阅读量223

点赞数

文章标签：语言模型人工智能自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247616558&idx=1&sn=4f17bb029d46c89a50bd4133d543fd4b&chksm=e9e001a5de9788b3f87ad1fd43769fafcf43d2d46bd299abf1ed37b9216095d3166d67450159&scene=126&sessionid=0

版权

作者：Tasmia Ansari翻译：陈之炎
校对：赵如萱


本文约1500字，建议阅读5分钟
本文为你简要介绍语义搜索和大语言模型（LLM）。

“语义搜索和大语言模型（LLM）就像饼干和牛奶一样结合到一起，”Stack Overflow说。

诸如GPT这样的大型语言模型并非像你的朋友那样理解你的真实所指，这是因为大语言模型存在语境问题。自2021年以来，很多事情都发生了变化，大家都将注意力从反向链接和关键字转向了理解意图和行为，以及它们背后的语境——语义学。

生成式搜索开辟了语义搜索的新前沿，具有序列生成能力的LLM是该任务的理想选择。两天前，由于页面流量的不断上升，问答平台堆栈溢出（Stack Overflow）决定转向语义搜索。在公告博客中，该公司表示：“语义搜索和LLM就像饼干和牛奶一样结合到了一起。”

该公司成立于2008年，在过去的几年里已经使用了微软SQL的全文搜索，之后实现了弹性搜索。“但即便采用了顶级算法，搜索也还会遇到一些问题。”该博客表示。

博客列出了转向语义搜索的原因，并指出，首先，词汇搜索是非常严格的。如果关键字拼写错误或使用了同义词，用户将得不到预期的结果。假如输入一个查询——询问一个问题，正如问路一样——那么没有找到任何匹配文档的概率将会非常高。第二个问题是，对于那些使用专门的标点符号和布尔运算符来获得想要内容的用户来说，文字方法一点也不直观。

语言模型则不同，它具备非凡的能力：它们不仅发现相关信息，还能用自然语言构建响应，在搜索过程中提供类似人类的对话体验。这种LLM特征已经被证明对聊天机器人和问答系统非常有利。

用外行人来说，语义搜索是指以一种人类所能理解的方式来理解查询背后的含义和意图。它能提供精准且与语境相关的搜索结果。此外，LLM和文本嵌入的集成可以更快地检索文档，从而大大减少用户的搜索时间。

堆栈溢出（Stack Overflow ）指出，它的“理念非常简单：准确度和归因”。虽然大型语言模型（LLM）能从未知的来源中生成结果，但该公司已经明确声称在其检索增强生成（RAG）LLM总结中使用了问题和答案的归因。

支持语义

去年，音乐服务和播客领域无可争议的领导者Spotify实施了语义搜索，以提高平台体验的可访问性。其中包括利用一体化播客应用程序Anchor中的语义搜索，来增强播客api和自然语言支持的播客搜索功能。

在此之前，用户必须依靠关键字匹配来发现感兴趣的播客。然而，随着语义的引入，体验类似于与朋友交谈，从而使得体验效果显著改善。这种新颖的方法考虑了单词和句子的实际意义，而不仅仅是特定的术语，从而生成更为准确的播客搜索体验。

科技巨头谷歌的目标是研发出一个全语义的搜索引擎。值得注意的是，它所有的主要创新，如RankBrain、E-A-T、BERT和MUM，都直接或间接地支持了这一目标。

谷歌开发语义搜索引擎的日程可以追溯到1999年，2012年随着知识图谱的引入，以及2013年其排名算法（俗称蜂鸟Hummingbird）带来的决定性变化，语义搜索引擎变得更加具体。随着IT巨头的语义体验倡议，该公司开始夸大其语义能力。

谷歌并不是唯一一家认真对待这种方法的公司。

在其称为 AI for Scale的人工智能计划中，微软也在很大程度上依赖于语义搜索，称之为“语义搜索的迁移能力——主要展示AI at Scale可以为客户提供什么样的服务。”这家软件巨头在公司的博客上声称。

虽然堆栈溢出（Stack Overflow）最近在其搜索中整合了语义模型，但去年随着ChatGPT在互联网上声名大振，人们对语义搜索与语言模型的结合可以实现更好的搜索体验做了一些预测。

当语义搜索和生成式人工智能协同工作时，可以提高准确度、可信度和保持更新的方便性。在没有结合语义搜索技术的情况下，没有采用或选择性采用生成式人工智能的公司将难以在激烈的竞争中生存。争夺霸权的竞争要求保持在技术的最前沿，并使用语义和语言模型相结合所提供的战略优势。

作者简介：

Tasmia是AIM公司的一名技术记者，他希望为数据科学、数据分析和人工智能领域的新兴技术和趋势带来全新的视角。

原文标题：

What Semantic Search Can Do for LLMs

原文链接：

https://analyticsindiamag.com/what-semantic-search-can-do-for-llms/

编辑：于腾凯

校对：林亦霖

译者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师，现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。业余时间喜爱翻译创作，翻译作品主要有：IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等，其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组，希望能和大家一起交流分享，共同进步

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。