独家|无形的变革:向量如何重塑商业的成功(上)

图片

作者:Felix Schmidt
翻译:陈之炎校对:赵茹萱
本文共5500字,建议阅读10分钟
本文介绍向量是如何重塑商业的成功。‍

AI背后隐藏的力量正在推动下一波商业转型浪潮

人脑中包含向量和代码  图源:Felix Schmidt

在数据驱动的世界中,商业领袖必须具备向量思维。向量像学校里的代数一样复杂,它们是基础构建模块。向量是分摊账单或计算利息等任务的关键,是它们支撑着数字系统,实现决策、客户互动和数据保护。

向量代表了一种截然不同的关系和模式,它们不会简单生硬地将数据划分为单纯的类别,而是提供了一个动态的、多维的底层联系视图。例如,对于两个客户来说,相似度不仅仅是人口统计学或购买历史的问题,而是他们的行为、偏好和习惯有着显著的一致性,这种关联可以在向量空间中准确地定义和度量,对于现代企业来说,这种逻辑显得过于复杂。因此,在过去,领导者往往会回归到基于规则的老旧模式,而在现在,已经进化到能够利用向量识别模式和异常。 

几年前,一次性占用信用卡额度50%的交易会被阻止,而现在系统会分析客户在特定零售商处的消费历史,查看同一零售商处其他客户的平均购物量,并对先前消费的物理位置进行一些简单的逻辑检查。

因此,如果在阿姆斯特丹刚刚花了3美元租自行车后,在迪拜的麦当劳出现一笔7000美元的交易,这种情况就不允许发生。即使是20美元也不行,因为逻辑向量会排除无效的物理距离。相反,在阿姆斯特丹市中心附近的一家零售商处,购买新电动自行车的7000美元交易会毫无阻拦地进行。欢迎来到由向量统管的世界。

忽视向量范式的危险是巨大的,不掌握代数会引发糟糕的财务决策。同样,不了解向量会削弱商业领袖的地位。尽管像普通乘客无需了解空气动力学一样,虽然可以对向量一无所知,但商业领袖至少应该了解为了特定航班的收支平衡需要占用多少座位。虽然不需要完全理解整个系统,但基本常识有助于知道何时应该向专家求助。这正是我在本次向量世界之旅中的目标:了解基本原则,并知道何时需要向专家寻求更多帮助,以便更好地指导和管理业务。

在研究实验室和技术公司的安静走廊里,正在酝酿一场变革。它将改变计算机理解世界的方式,它与计算机的处理能力或存储容量无关,它与教会机器理解语言中的上下文、含义和细微差别有关。正是因为使用了称为向量的数学表示,使得我们在欣赏这一转变之前,首先需要了解它有哪些与众不同之处。

来看看人类获取信息的方式:当我们看到一只猫时,大脑不仅仅处理一个清单:胡须、毛皮、四条腿。相反,大脑会通过包含关系、上下文和联想的网络来工作。在潜意识中,大脑知道猫比自行车更像狮子。这并不是因为大脑已经记住了这个事实,而是大脑自然地学会了这些关系。在向量世界中,归根结底是“目标变换序列”(target_transform_sequence)或等价物。向量表示让计算机以类似人类的方式处理内容。在即将到来的人工智能革命时代,我们更加应该理解这是如何成为现实的,这就像知道基础代数一样。

在本次短暂的向量之旅中,我将解释基于向量的计算如何运作,以及为什么它能带来如此巨大的变革。代码示例仅用于说明,没有独立的功能。读者不必是软件工程师就能理解这些概念。只需要跟随我,我会用平实的语言逐步解释每一个步骤。我的目标不是成为世界级的数学家,而是让商业领袖、经理、工程师、音乐家等每个人都能理解向量。

究竟什么是向量?

图源:Unsplash,Pete F

基于向量的计算之旅来源已久,它的根源可以追溯到20世纪50年代,从认知科学中分布式表示发展而来。詹姆斯·麦卡伦德和大卫·鲁梅尔哈特等研究人员提出,大脑并不是将概念作为独立实体存储的,而是作为神经网络的编译活动模式存储的,这一发现为现代向量表示铺平了道路。 

真正的突破是三件事的结合:计算能力的指数增长、复杂神经网络架构的发展以及大规模数据集的训练,正是这三个元素的结合,形成了基于向量的系统理论,并且在实践中得以大规模实施。人们所熟知的人工智能主流(例如ChatGPT等)正是这一发展的直接结果。

为了便于理解,让我将传统计算机系统放在上下文中:传统的计算系统基于符号——离散的、人类可读的符号和规则。例如,传统系统会将客户表示为一条记录:

这种表示方法可读性强,合乎逻辑,但它却遗漏了微妙的模式和关系。相比之下,向量表示将信息编码在高维空间中,通过几何接近性自然产生向量间的关系。将一个客户表示为一个384维的向量,其中每一个维度都为丰富、细腻的个人资料做出贡献。利用简单的代码便能将二维客户数据转换为向量。来看看这有多简单:   

这个代码示例已经展示了如何轻松地将复杂的客户数据编码为有意义的向量。这种方法看起来很复杂,但实际上却很简单。通过将客户文本和数值数据合并,从而获得丰富、信息密集的向量,利用向量捕捉每个客户的本质。我之所以喜欢这个技术的主要原因是它的简单性和灵活性,利用向量编码年龄、购买历史和风险水平,并且可以通过复制这种模式来捕捉其他与用例相关的客户属性。回想一下先前描述的信用卡消费模式。可以将类似的数据转换成向量,从而拥有了远大于二维属性的区别于传统规则逻辑的意义。   

利用这一小段代码示例便能够在一个丰富的语义空间和一个归一化的值空间中拥有两个非常有说服力的表示,以图形的方式,将每一条记录映射成线,该线具有直接的比较属性。

这使得系统能够识别复杂的模式和关系,而传统的数据结构无法充分反映这些关系。凭借向量空间的几何特性,这些结构的形状讲述了相似性、差异性和关系的故事,允许对复杂数据进行标准化但又灵活地的表示。

从此处开始,便能看到这种结构在其他基于向量的客户分析应用中复制:使用相关数据,将其聚合为便于处理的格式,将异构数据合并为基于向量的元表示。无论是推荐系统、客户细分模型还是预测分析工具,这种向量化方法将支撑所有应用。因此,即使读者认为自己是非技术人员,更倾向于具体业务,了解和理解这种基本方法也非常重要。

只需只须记住——关键在于考虑哪一部分数据包含有意义的信息,以及如何以一种保留它们关系的方式对它们进行编码,这是以另一种思维方式实现业务逻辑,它是一种更现代的、多维的方式。

富有含义的数学(国王和王后)

图源:Unsplash,Debbie Fan

人类交流过程是一个传递富有意义网络的过程,大脑会自动将网络里的信息关联起来以便于理解。这些都是可以利用向量计算,以数学方式捕捉意义。在空间中表示单词,使它们成为多维单词空间中的点,这种几何处理用距离和方向等空间术语,思考感兴趣的抽象语义关系。

例如,在向量空间中“国王与王后”的关系与“男人与女人”的关系具有相似的编码,“国王”和“王后”之间的方向和距离与“男人”和“女人”之间的方向和距离相似。

进一步来理解为什么会这样:使这个系统能够工作的关键组成部分是词嵌入——将单词编码为密集向量空间中的数值表示,词嵌入通过检查大量文本片段中单词的共现来得出,正如人类通过观察上下文来学习“狗”和“小狗”是相关概念一样,词嵌入算法将这些单词在向量空间中放置得彼此更加靠近些。

将目光投向词嵌入如何编码类比关系时,它们展现出了真正的力量。在理解“国王”和“王后”之间关系时,可以通过直觉知道这两个单词在性别上有所不同,它们与宫殿、权威和领导力等概念有共同的关联。通过向量空间系统的一个奇妙属性——向量算术——可以用数学方式捕捉这种关系。   

一个经典的例子是:

该等式告诉我们,如果已有“国王”的向量,并且减去“男人”的向量(移除“男性”这一概念),然后加上“女人”的向量(添加“女性”这一概念),就能得出一个新向量,它非常接近于“王后”的向量。这并非数学上的巧合——它是基于嵌入空间以某种结构化的方式安排的意义。

可以在Python中使用预训练的词嵌入来应用这个上下文概念:

该向量空间的结构揭示了许多基本原则:

1.语义相似性表现为空间接近性。相关的单词会聚集在一起:即邻近的思想。例如,“狗”“小狗”和“犬类” 会是形成一个簇,而“猫”“小猫”和“猫科动物”会在附近形成另一个簇。

2.单词之间的关系成为空间中的方向。从“男人”到“女人”的向量编码了性别关系,而其他类似的关系(例如“国王”到“王后”或“演员”到“女演员”)通常指向相同的方向。   

3.向量的大小传达了单词重要性或特定性的意义,常见单词的向量通常比专业术语的向量短,反映了它们更广泛、更具体的含义。

以这种方式处理单词之间的关系,提供了富有意义的几何编码,将自然语言处理的细微差别映射成精确的为机器所理解的数学。与将单词视为独立符号的系统不同,向量系统可以识别模式、进行类比,甚至发现从未发现的关系。

为了更好地理解刚才讨论的内容,我将之前提到的单词(“国王、男人、女人”;“狗、小狗、犬类”;“猫、小猫、猫科动物”)映射为二维向量。这些向量的数值代表了语义。

将之前提到的示例术语进行二维词嵌入的可视化。为了说明得更清楚,我们显显示了分组类别。向量数据是虚构的,轴经过简化处理。‍

  • 与人类相关的单词在两个维度上都有很高的正值。

  • 与狗相关的单词有负的x值和正的y值。

  • 与猫相关的单词有正的x值和负的y值。

注意,向量值是虚构的,正如在二维空间中绘制的向量所示,可以根据向量的位置观察到基于群组的分组。例如,三个与狗相关的单词可以归类聚类为“狗”类别等。

掌握这些基本原则之后,对现代语言人工智能的能力和局限性有了洞察,例如大型语言模型(LLMs)。尽管这些系统可以进行令人惊叹的类比和关系操作,但它们最终是基于文本中单词出现的邻近性形成的几何模式的循环。这是一种复杂但本质上不完整地的对人类语言的理解,因此,基于向量的LLM只能根据接收到的输入内容进行输出。这并不意味着它只能生成与训练内容完全一致的内容,此外LLMs有惊人的幻觉能力,这意味着对LLMs来说,除非经过特别指示,否则不会创造出新单词或新语言来描述事物。这种缺乏对向量基本原理的理解,是许多期望LLMs成为奇迹的商业领袖所共有的,因为他们并不知道向量的底层原理。   

距离、角度和晚宴的故事

图源:Unsplash,OurWhisky Foundation

现在,假设你正在举办一场晚宴,主题是好莱坞和大片,你想根据人们的喜好来安排座位。可以简单地计算来宾偏好之间的“距离”,来确定谁和谁应该坐在一起。但是,测算距离的结果会直接影响参与者的对话:或是尴尬的沉默。不好意思,公司派对的回忆又重现了!

在向量的世界里也是如此。距离度量定义了两个向量看起来有多“相似”,因此,最终决定了系统在预测结果方面的表现。    

欧几里得距离:简单直接,但有限制

欧几里得距离测量空间中两点之间的直线距离,这不难理解:

  • 要测量向量的物理位置,欧几里得距离就足够了。

  • 然而,在高维空间(例如代表用户行为或偏好的向量)中,这种度量常常表现不足。比例或大小的差异会歪曲结果,应将重点放在规模上而不是实际的相似性上。

例如:用两个向量代表晚宴客人对流媒体服务使用情况的偏好:

尽管他们的偏好一致,但欧几里得距离会使它们看起来大不相同,因为总体活动水平有差异。

在更高维度的空间中,如用户行为或文本意义,欧几里得距离变得越来越可信,它过度强调大小,从而掩盖对比。考虑两个影迷:一个看了200部动作片,另一个看了10部,但他们都喜欢相同的类型。由于二者的活动水平不同,第二个观众在使用欧几里得距离时会显得与第一个观众非常不相似,尽管他们都看的是布鲁斯·威利斯的电影。

余弦相似度:关注方向

余弦相似度方法采取了不同的方法。它关注向量之间的夹角,而不是它们的大小。这就像是比较两支箭的路径。如果它们指向相同的方向,它们就是对齐的,不管它们的长度如何。它适用于高维数据,它在乎的是关系,而非规模。   

  • 如果两个向量指向相同的方向,则它们是相似的(余弦相似度约为1)。

  • 当两个向量指向相反(即指向相反的方向)的方向时,它们是不同的(余弦相似度约为-1)。

  • 如果两个向量是垂直的(彼此之间呈90°直角),它们是不相关的(余弦相似度接近0)。

这种归一化属性利用相似性分数正确地测量了对齐情况,与一个向量相对于另一个向量的大小无关。

例如:回到流媒体偏好,看看参加晚宴客人的偏好的向量会是什么样子:

讨论一下为什么在这种情况下余弦相似度非常有效。因此,当计算vec1 [5, 10, 5]和vec2 [1, 2, 1]的余弦相似度时,实际上是在查看这两个向量之间的角度。

首先用点积运算对向量进行归一化,将每个分量除以向量的长度。这个操作“抵消”了大小的差异:

  • 对于vec1:归一化后得到[0.41, 0.82, 0.41]。

  • 对于vec2:归一化后也得到[0.41, 0.82, 0.41]。

现在理解了为什么这些向量在余弦相似度方面是相同的,因为它们的归一化结果是相同的!

这告诉我们,尽管晚宴客人A观看的总内容更多,但他们占用特定类型的相对比例与晚宴客人B的偏好完全一致。这就像是说,你的两个客人都将20%的时间用于观看动作片,60%用于观看剧情片,20%用于观看喜剧片,与他们观看的总小时数无关。

正是这种归一化使得余弦相似度在处理高维数据(如文本嵌入或用户偏好)时特别有效。

当处理多维度的数据时(想想电影的各种特征对应数百或数千个分量的向量),往往是每个维度相对于完整档案的相对重要性,而不是绝对值,才是最重要的。余弦相似度正是识别这种相对重要性的工具,它是识别复杂数据中有意义关系的强大工具。‍

原文链接:

https://towardsdatascience.com/the-invisible-revolution-how-vectors-are-redefining-business-success/

编辑:王菁‍‍‍

校对:梁锦程‍‍

作者简介

图片

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

图片

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击“阅读原文”拥抱组织

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值