2024年数据与人工智能领域的十大趋势

   每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。 

“数据和人工智能领域的发展速度令人眼花缭乱。如果你不偶尔停下来环顾四周,你可能就会错过它。”2023年是生成型人工智能(Generative AI)的元年。而2024年,似乎又将是生成型人工智能的另一个年头。不过,与2023年团队们急于追逐潮流不同,2024年将看到团队们将重点放在使用人工智能模型解决真正的商业问题上。随着重心的转移,新的优先事项也随之而来。

谈到数据的未来,一浪高过一浪。生成型人工智能在2024年将继续崛起,从而提升整个数据行业的标准和优先级。

以下是我对数据和人工智能团队下一步动向的十大预测,以及你的团队如何保持领先一步。

  1. 大型语言模型将改变技术栈

    毫不夸张地说,过去12个月里大型语言模型(LLMs)已经彻底改变了科技的面貌。从拥有合法用途的公司到夜以继日寻找问题的团队,每个人及其数据管理员都在以某种方式尝试使用生成型人工智能(GenAI)。

    大型语言模型预计将在2024年及以后继续这种转变 —— 从推动对数据的需求增加,到促成新架构的诞生,比如向量数据库(也就是所谓的“人工智能栈”),再到改变我们操纵和为最终用户使用数据的方式。

    自动化数据分析和激活将成为每个产品以及数据栈的每个层面上的预期工具。问题在于:我们如何确保这些新产品在2024年真正提供价值,而不仅仅是为了公关宣传的一时新鲜?

  2. 数据团队将变得像软件团队

    最先进的数据团队正在将他们的数据资产视为真正的数据产品——包括产品需求、文档、短期冲刺开发以及为最终用户制定的服务级别协议(SLAs)。

    因此,随着组织开始为他们定义的数据产品赋予更多价值,越来越多的数据团队将开始呈现出——并被管理得像——他们所扮演的关键产品团队的模样。

  3. 软件团队将成为数据从业者

    当工程师在构建数据产品或生成型人工智能(GenAI)时不考虑数据本身,结果通常不尽如人意。以联合健康保险公司(United Healthcare)为例就能看出这一点。

    随着人工智能继续颠覆整个世界,工程设计和数据将变得密不可分。没有考虑人工智能的重大软件开发不会进入市场——同样,没有一定程度的真实企业数据支持的重大人工智能也不会面市。

    这意味着,当工程师寻求提升新的人工智能产品时,他们需要关注数据——以及如何处理数据——以构建能够增加新价值并持续提供价值的模型。

  4. 检索增强生成将成为热门话题

    在一系列备受关注的生成型人工智能(GenAI)失败之后,清洁、可靠且经过策划的背景数据来增强人工智能产品的需求变得愈发明显。

    随着人工智能领域的持续发展,以及大型语言模型(LLMs)训练中的盲点变得越来越明显,拥有专有数据的团队将转向使用检索增强生成(Retrieval Augmented Generation,RAG)和大规模微调来增强他们的企业级人工智能产品,并为其利益相关者提供可证明的价值优势。

    RAG在这一领域还相对较新(最初由Meta AI在2020年引入),组织们还没有围绕RAG开发出经验或最佳实践——但这些都在酝酿之中。

  5. 团队将实现企业级人工智能产品的运营

    数据工程的趋势持续热门 —— 数据产品。毫无疑问,人工智能就是一种数据产品。

    如果说2023年是人工智能的一年,那么2024年将是实现人工智能产品运营的一年。不管是出于需求还是被迫,各行各业的数据团队都将拥抱准备就绪的企业级人工智能产品。问题是 —— 它们真的准备好了吗?

    (希望)过去那些仅为了回应董事会的提问而随意创建聊天功能来说自己融合了人工智能的日子已经一去不复返了。在2024年,团队们很可能会变得更加精于如何开发人工智能产品,利用更好的训练实践来创造价值,并识别需要解决的问题,而不是仅仅为了技术而技术,从而制造新的问题。

  6. 数据可观察性将支持人工智能和向量数据库

    在亚马逊网络服务(Amazon Web Services,AWS)2023年首席数据官洞察调查中,受访者被问及他们的组织在实现生成型人工智能(Generative AI)潜力方面面临的最大挑战是什么。

    最常见的回答?数据质量。

    生成型人工智能,其核心是一个数据产品。就像任何数据产品一样,没有可靠的数据,它就无法发挥作用。但在大型语言模型(LLMs)的规模下,手动监控无法提供所需的全面和高效的质量覆盖,以确保任何人工智能的可靠性。

    要真正成功,数据团队需要一个活生生、有呼吸的数据可观察性策略,这种策略专为人工智能栈量身定做,能够让他们在不断增长和变化的环境中持续地检测、解决和预防数据停机。此外,这些解决方案需要优先考虑解决方案、流水线效率以及支持人工智能的流媒体/向量基础设施,以便在2024年的现代人工智能可靠性竞争中占有一席之地

  7. 大数据将变得更小

    三十年前,个人电脑还是一种新奇事物。而现在,现代的Macbook拥有与亚马逊网络服务(AWS)服务器相同的计算能力,正是Snowflake在2012年推出其最小可行产品(MVP)仓库时所使用的服务器。因此,硬件正在模糊商业和企业解决方案之间的界限。

    由于大多数工作负载都较小,数据团队将开始使用进程内和内存/进程内数据库来分析和移动数据集。

    特别是对于需要快速扩展的团队,这些解决方案可以快速启动,并能通过商业云服务提供企业级的功能。

  8. 合理调整将成为优先事项

    当今的数据领导者面临着一个艰巨的任务:使用更多数据,创造更大的影响,更多地利用人工智能 —— 但同时要降低云计算成本。

    正如哈佛商业评论所说,数据和人工智能主管被设定为失败。根据国际数据公司(IDC)2023年第一季度的报告,云基础设施支出已经上升到215亿美元。根据麦肯锡的数据,许多公司的云支出每年增长高达30%。

    像元数据监控这样的低影响方法,以及允许团队查看和正确规模利用的工具,在2024年将是无价之宝。

  9. Apache Iceberg将崛起

    Apache Iceberg是一个开源的数据湖仓库表格格式,由Netflix的数据工程团队开发,旨在提供更快更简便的处理大规模数据集的方法。它设计得可以用SQL轻松查询,即便是拥有数PB数据的大型分析表也不在话下。

    现代数据仓库和湖仓库提供计算和存储能力,而Iceberg专注于提供成本效益高、结构化的存储,可以被组织内的多种不同引擎同时访问,如Apache Spark、Trino、Apache Flink、Presto、Apache Hive和Impala。

    近期,Databricks宣布Delta表的元数据也将与Iceberg格式兼容,Snowflake也在积极地与Iceberg进行整合。随着湖仓库成为许多组织的事实解决方案,Apache Iceberg——以及Iceberg的替代品——预计会继续增长其受欢迎程度。

  10. 回归办公室……对某些人而言

    RTO(返回办公室)——这个缩写可能是每个人最不喜欢的,或者可能是最喜欢的!老实说,我现在都跟不上了。尽管团队在这个问题上看似意见分歧,但越来越多的团队正在被要求回到自己的小隔间/开放式办公区/灵活的工作环境,至少每周几天。

    根据Resume Builder在2023年9月的报告,到2024年底,90%的公司计划实施返回办公室政策——几乎是在2020年那个命运多舛的春天四年后。

    事实上,包括亚马逊的Andy Jassy、OpenAI的Sam Altman和谷歌的Sundar Pichai在内的几位大公司CEO在过去几个月已经实施了返回办公室的政策。至少从某些方面来看,在办公室工作(至少是兼职)相比完全在家工作似乎确实有一些好处。

    你是那种永远想在家工作的人吗?答案似乎总是在于数据——提供更多价值。尽管最近的经济逆风及其对就业市场的影响,数据和人工智能团队需求依然旺盛。雇主通常会尽其所能吸引和留住他们。虽然一些公司要求所有员工无论职位如何都必须回到办公室,但像Salesforce这样的公司却要求非远程工程师减少进办公室的次数,每季度总共只需10天。

  • 20
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值