从大语言模型转换现代数据堆栈到矢量数据库的数据可观察性,以下是对2024年数据工程顶级趋势的预测。
图片来自Shutterstock
“数据和人工智能领域发展迅速。如果你不偶尔停下来环顾四周,你可能会错过它。”
2023年是GenAI年,2024年将会是另一个GenAI年。
但是,2023年的团队争先恐后地寻找名字,2024年的团队将优先考虑他们的人工智能模型的实际业务问题。随着重点的重新聚焦,也有了新的优先事项。
当谈到数据的未来时,水涨船高。GenAI将在2024年继续上升,同时提高数据行业的标准和优先级。
以下是对数据和人工智能团队未来的十大预测,以及你的团队如何保持领先一步。
1.大语言模型将改变堆栈
这是已知的。
可以毫不夸张地说,大型语言模型(LLM)在过去12个月里改变了技术的面貌。从拥有合法用例的公司到利用技术寻找问题的夜间飞行团队,每个人和他们的数据管理员都在尝试以某种方式使用生成式人工智能(GenAI)。
大语言模型将继续这种转变,直到2024年及以后——从推动对数据的需求增加,到需要失量数据库(又名“人工智能堆栈”)等新架构,再到改变我们为最终用户操纵和使用数据的方式。
自动化数据分析和激活将成为每个产品和每个数据堆栈级别的预期工具。问题是:我们如何确保这些新产品在2024年提供真正的价值,而不仅仅是公关信誉的小噱头?
2.数据团队将看起来像软件团队
最成熟的数据团队将他们的数据资产视为真正的数据产品——包括产品需求、文档、sprint,甚至是针对最终用户的SLA。
因此,随着组织开始将越来越多的价值映射到他们定义的数据产品上,越来越多的数据团队将开始像关键产品团队一样看待并受到管理。
3.软件团队将成为数据实践者
当工程师试图构建数据产品或GenAI而不考虑数据时,结果不会很好。问问联合医疗就知道了。
随着人工智能继续吞噬世界,工程和数据将合二为一。没有着眼于人工智能的主要软件开发就不会进入市场,没有某种程度的真正的企业数据支持,任何主要的人工智都不能进入市场。
这意味着,当工程师们寻求提升新的人工智能产品时,他们需要关注数据——以及如何使用数据——以便建立能够增加新的和持续价值的模型。
4.RAG将会风靡一时
在经历了一系列引人注目的GenAI失败之后,对干净、可靠和精心策划的上下文数据来增强人工智能产品的需求变得越来越明显。
随着人工智能领域的不断发展,普通大语言模型培训中的盲点变得非常明显,拥有专有数据的团队将转向RAG(检索增强生成)并进行集体微调,以增强其企业人工智能产品,并为其利益相关者提供可证明的价值护城河。
RAG仍然相对较新(它是在2020年由Meta AI首次引入的),组织还没有围绕RAG开发经验或最佳实践-但它们即将到来。
5.团队将运营企业级AI产品
持续趋势的数据工程趋势——数据产品。毫无疑问,人工智能是一种数据产品。
如果说2023年是人工智能之年,那么2024年就是人工智能产品的运营之年。无论是出于需要还是被迫,各行各业的数据团队都将采用企业级人工智能产品。问题是,他们真的做好了企业准备吗?
创造随机聊天功能只是为了在董事会要求时集成AI的日子已经一去不复返了(希望如此)。到2024年,团队可能会在如何开发人工智能产品方面变得更加成熟,利用更好的培训实践来创造价值,并识别需要解决的问题,而不是大量使用技术来制造新问题。
6.数据可观察性将支持人工智能和矢量数据库
在亚马逊网络服务(AWS)的2023年CDO Insights调查中,受访者被问及他们的组织在实现生成式人工智能潜力方面面临的最大挑战是什么。
最常见的答案是什么?数据质量。
生成式人工智能的核心是一种数据产品。像任何数据产品一样,没有可靠的数据,它就无法发挥作用。但在大语言模型的规模下,人工监控无法提供使任何人工智能可靠所需的全面有效的质量覆盖。
为了真正取得成功,数据团队需要一个为人工智能堆栈量身定制的实时数据可观察性策略,使他们能够在不断增长和动态的环境中持续检测、解决和防止数据停机。而且,这些解决方案需要优先考虑分辨率、管道效率和支持人工智能的流/矢量基础设施,以便在2024年的现代人工智能可靠性之战中成为竞争者。
7.大数据将变得越来越小
30年前,个人电脑是个新奇的东西。如今,随着现代macbook拥有与2012年Snowflake推出MVP仓库的AWS服务器相同的计算能力,硬件正在模糊商业和企业解决方案之间的界限。
由于大多数工作负载都很小,数据团队将开始使用进程内和内存/进程内数据库来分析和移动数据集。
特别是对于需要快速扩展的团队,这些解决方案可以快速启动,并且可以通过商业云产品提升到企业级功能。
8.调整大小将优先考虑
如今的数据领导者面临着一项不可能完成的任务。使用更多的数据,创造更大的影响,利用更多的人工智能——同时降低云计算成本。
正如《哈佛商业评论》(Harvard Business Review)所言,首席数据官和人工智能官注定会失败。IDC报告称,截至2023年第一季度,云基础设施支出上升至215亿美元。据麦肯锡称,许多公司的云计算支出每年增长30%。
低影响的方法,如元数据监控和允许团队查看和适当大小利用率的工具,在2024年将是无价的。
9.冰山将升起(阿帕奇冰山)
Apache Iceberg是由Netflix的数据工程团队开发的一种开源数据Lakehouse表格式,它提供了一种更快、更简单的方式来大规模处理大型数据集。它被设计成可以很容易地用SQL查询,甚至对于具有PB级数据的大型分析表也是如此。
现代数据仓库和Lakehouse将同时提供计算和存储,而Iceberg则专注于提供具有成本效益的结构化存储,这些存储可以被许多不同的引擎访问,这些引擎可以同时在你的组织中使用,比如Apache Spark、Trino、Apache Flink、Presto、Apache Hive和Impala。
最近,Databricks宣布Delta表的元数据也将与Iceberg格式兼容,而Snowflake也在积极地与Iceberg集成。随着Lakehouse成为许多组织事实上的解决方案,Apache Iceberg以及 Iceberg 的替代方案也可能会继续流行。
10.为某人回到办公室
RTO——每个人最不喜欢的首字母缩写。或者可能是他们的最爱!虽然团队似乎在这个问题上存在分歧,但越来越多的团队每周至少有几天被召回到他们的小隔间/开放式布局/灵活的工作环境中。
根据Resume Builder在2023年9月发布的一份报告,90%的公司计划在2024年底前实施重返办公室的政策,距离2020年那个灾难性的春天已经过去了近四年。
事实上,包括亚马逊的Andy Jassy、OpenAI的Sam Altman和谷歌的Sundar Pichai在内的几位有影响力的首席执行官已经在过去几个月里制定了重返办公室的政策。与完全在家工作相比,在办公室工作(至少是兼职)似乎至少有一些好处。
发现自己处于永远呆在家里的营地吗?答案似乎是——在数据领域总是如此——提供更多的价值。尽管最近的经济逆风及其对就业市场的影响,但数据和人工智能团队的需求量很大。雇主们通常会不惜一切代价得到他们——并留住他们。虽然有些公司要求所有员工无论职位如何都要回到办公室,但像Salesforce这样的公司要求非远程工程师的上班时间要少得多,每个季度总共只有10天。
扫码关注云原生大数据平台KDP
原文作者:Barr Moses
翻译作者:Dou
美工编辑:过儿
校对审稿:Jason
原文链接:https://barrmoses.medium.com/top-10-data-ai-trends-for-2024-7f830196db65
- FIN -
更多精彩推荐
👇点击阅读原文了解BDOS云原生大数据产品矩阵