独家|无形的变革:向量如何重塑商业的成功(下)

图片

作者:Felix Schmidt
翻译:陈之炎校对:赵茹萱
本文共4000字,建议阅读10分钟
本文介绍向量是如何重塑商业的成功。

攀登欧几里得山道

图源:Unsplash,Christian Mikhael

在本小节,将看到在实践中,不同的相似性度量方法是如何表现的,通过一个现实世界的具体例子和一些简单的代码示例,来展示相似性度量方法。即使你不是技术专家,也很容易理解代码。不要害怕!它并不复杂。

快速讨论一下一条10英里长的徒步旅行道。两个朋友,亚历克斯和布莱克,对同一次徒步旅行写下了不同的路线评论,两个人都给出了不同的评价:

这条路线在仅仅2英里内就上升了2000英尺!有了高海拔的尖峰,轻松就能完成!

亚历克斯

小心,我们在森林地形的尖峰处直直地爬升了100英尺!总的来说,这是10英里美丽的森林徒步旅行!

布莱克

将这些描述表示为向量:

结合两种相似性度量方法,看看它提示了什么信息:   

运行这段代码,会发生一些神奇的事情:   

这个输出显示了为什么同一条路线会显得不同。

较大的欧几里得距离(8.12)表明这两个描述差异巨大,正如2000与100之间的巨大差异,以及2与10之间的差异,使得二者很不一样,直接提取出数字之间的差异,但并未理解它们的真实含义。

较高的余弦相似度(0.95)告诉我们一些更有趣的事情:这两个描述捕捉到了相似的模式。

如果查看归一化的向量,也可以看出;亚历克斯和布莱克都在描述一条以海拔上升为主要特征的路线。每个归一化向量的第一个数字(海拔上升)相对于第二个数字(路线长度)要大得多。或者,将它们都提升到相同的水平,并基于比例进行归一化——二者共享定义这条路线的相同特征。

完全与现实相符:亚历克斯和布莱克徒步了同一条路线,但在写评论时关注了不同的部分。亚历克斯关注了较陡的部分,描述了100英尺的爬升,而布莱克描述了整个路线的轮廓,平均每英里上升200英尺,总共10英里。余弦相似度将这些描述识别为相同路线模式的变体,而欧几里得距离则将它们视为完全不同的路线。

这个例子说明了选择适当的相似性度量的必要性。归一化并采用余弦相似度可以揭示许多有意义的相关性,而这些相关性在实际用例中会被像欧几里得距离这样的简单距离度量所遗漏。

度量选择的实际影响   

图源:Unsplash,fabio

选择的度量不仅仅是改变了数字,它影响了复杂系统的实际结果。以下是它在各个领域的具体表现:

  • 在推荐引擎中:当涉及余弦相似度时,可以将具有相同口味的用户分组,即使他们的总活动量不同也可以正确分组。流媒体服务可以利用这一点,推荐与用户类型偏好相符的电影,而不是仅仅根据一小部分活跃观众的热门选择来推荐。

  • 在文档检索中:当查询一个包含文档或研究论文的数据库时,余弦相似度会根据文档内容与用户查询在意义上的相似性来对文档进行排名,而不是根据文档的长度。这使得系统能够检索出与查询上下文相关的结果,即使这些文档的大小各不相同。

  • 在欺诈检测中:行为模式往往比单纯的数字更重要。余弦相似度可以用来检测消费习惯中的异常,因为它比较的是交易向量的方向——比如商家类型、交易时间、交易金额等——而不是绝对数值的大小。 

这些差异在应用中尤为重要,它们让我们了解系统是如何“思考”的。再回到信用卡的那个例子:例如,它可能会使用欧几里得距离将一笔7000美元的高额交易识别为可疑交易——即使这笔交易对于你来说是正常的,因为你平均每月消费20000美元。

另一方面,基于余弦相似性的系统会理解这笔交易与你常见的消费模式一致,从而避免不必要的错误通知。

像欧几里得距离和余弦相似度这样的度量并非仅仅是理论上的,它们是现实世界系统赖以建立的蓝图。无论是推荐引擎还是欺诈检测,选择的度量将直接影响系统如何理解数据中的关系。

现实中的向量表示:行业转型

图源:Unsplash,Louis Reed

这种抽象能力是向量表示如此强大的原因——它们将复杂和抽象的专业领域数据转化为可以评分和采取行动的概念。这些见解正在推动各行业业务流程、决策制定和客户价值交付的实质性转型。

接下来,将探讨具体用例的解决方案,看看向量是如何腾出时间来解决大问题,并创造能产生重大影响的新机会的。我选择了一个行业来展示基于向量的方法可以实现什么,所以这里有一个来自临床环境的医疗保健例子。为什么?因为它对我们所有人都很重要,并且比深入金融系统、保险、可再生能源或化学等领域更容易让人产生共鸣。    

医疗保健聚焦:复杂医疗数据中的模式识别

在医疗保健行业,向量表示可以完美解决风暴般的挑战,患者数据非常复杂:病史、遗传信息、生活方式因素和治疗结果都以微妙的方式相互作用,而传统的基于规则的系统无法捕捉到这些相关信息。

在马萨诸塞州总医院,研究人员实施了一个基于向量的败血症早期检测系统,败血症是一种每提前一小时检测就能将生存机会提高7.6%的病症(查看完整研究请访问pmc.ncbi.nlm.nih.gov/articles/PMC6166236/)。

在这种新方法中,用自发放射性中性粒细胞速度剖面(SVP)来描述一滴血液中中性粒细胞的运动模式。这里不深入探讨太多医学细节,因为关注的是向量,中性粒细胞是一种免疫细胞,是身体用来抵抗感染的“第一响应者”。

该系统将每个中性粒细胞的运动编码为一个向量,该向量不仅捕捉其大小(即速度),还捕捉其方向。因此,将生物模式转换为高维向量空间,从而揭示了健康个体和败血症患者在运动方面的统计学显著差异。然后,在机器学习模型的帮助下处理这些向量,用该模型检测败血症的早期迹象。结果是一种诊断工具,其灵敏度(97%)和特异性(98%),能够快速而准确地识别这种致命病症——使用了刚才学到的余弦相似度(论文没有详细说明,所以这只是纯粹的猜测,但它是最合适的)。

这只是如何将医疗数据编码为其向量表示并转化为灵活、可操作的见解的一个例子。这种方法能够重构复杂关系,并且与机器学习一起,绕过了以前诊断模式的限制,是临床医生拯救生命的强大工具。这是一个有力的提醒,向量不仅仅是理论构造——它们是实用的、拯救生命的解决方案,正如它们正在推动医疗保健的未来一样,也希望未来它们能够推动商业业务发展。    

引领并理解,否则就会面临淘汰,这是赤裸裸的真相。

图源:Unsplash,Hunters Race

当根据数据关系做决策时,领导者往往会做出微妙但灾难性的假设。使用代数工具,虽然得到了一些结果,但无法知道它是否正确:在不了解向量的基本原理的情况下做出领导决策,就像使用计算器进行计算,但不知道使用什么公式一样。

好消息是,这并不意味着商业领袖必须成为数据科学家。向量很吸引人,因为一旦掌握了核心概念,它们就变得非常容易使用。对少数几个概念的理解(例如,向量如何编码关系、为什么距离度量很重要以及嵌入模型如何工作)可以从根本上改变领导者做出高层决策的方式。这些工具将助力提出更好的问题,更有效地与技术团队合作,并对将主导业务的系统做出明智的决策。   

这种理解的投资回报是巨大的。虽然人们一直在谈论个性化,然而,很少有组织在其商业战略中使用基于向量的思维。它可以充分发挥个性化的潜力,通过量身定制的体验取悦客户并建立忠诚度,并可以在欺诈检测和运营效率等领域进行创新,发掘利用传统方法遗漏的数据中的微妙模式,甚至可以拯救生命,正如上文所述,它可以避免因领导者在不了解其含义的情况下将关键决策委托给他人而发生的失误。

事实上,向量已经存在,并且正在推动几乎所有人工智能技术的发展,帮助创造今天和明天的世界。不适应向量思维的公司会在日益数据驱动的竞争环境中落后。采用这种新范式的人不仅会存活下来,而且会在无尽的人工智能创新时代蓬勃发展。

现在是时候采取行动,开始通过向量来看待世界。学习它们的语言,审视它们的教义,并思考新的事物如何改变策略和指南。就像代数已成为解决实际生活挑战的工具一样,向量很快将成为数据时代的读写工具。实际上,它们已经成为强有力的工具,强大的人知道如何利用向量掌控未来。向量是否会重新定义下一个商业时代?而你是否已经准备好引领向量时代?   

编辑:王菁

校对:梁锦程

作者简介

图片

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

图片

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击“阅读原文”拥抱组织

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值