2024年数据和人工智能领域的十大趋势

2024年数据和人工智能领域的十大趋势

著名的个人观点分享社区Medium发表了一篇针对2024年十大数据和 AI 的趋势预测的文章!


“数据和人工智能空间的移动速度很快。如果你不停下来看看周围,你可能会错过它。”

2023年是GenAI年。2024年将是…又是一年GenAI。

但2023年看到的是各公司都在发布大模型,2024年将看到的是各公司为他们的AI模型优先处理实际业务问题。

说到数据的未来,涨潮起掀起了所有的船。到2024年,GenAI将继续上升,与之一起提高数据行业的标准和优先级。

以下是我对数据和AI团队的下一步预测的10大预测——以及你的团队如何保持领先一步。

1. LLM 将改变堆栈

可以毫不夸张地说,在过去的12个月里,大型语言模型(LLM)改变了技术的面貌。从拥有合法用例的公司到夜以继日的技术团队,每个人和他们的数据管家都试图以一种或另一种方式使用生成AI (GenAI)。

LLM将在2024年及以后继续这种转变——从推动对数据的需求增加,并需要新的架构,如矢量数据库(又称“AI堆栈”),到改变我们为最终用户操作和使用数据的方式。

自动化的数据分析将成为每个产品和数据堆栈的工具。问题是:我们如何确保这些新产品能够提供实实在在的价值。

2. 数据团队变革-会像软件团队一样

最成熟的数据团队正在将他们的数据资产视为真正的数据产品——包括产品要求、文档,甚至最终用户的SLA。

因此,随着组织开始将越来越多的价值映射到其定义的数据产品中,越来越多的数据团队将开始寻找——并被管理——就像他们所拥有的关键产品团队一样。

3. 软件团队将成为数据从业者

当工程师试图构建数据产品或GenAI而不考虑数据时,结局不会很好。

随着AI继续吞噬世界,工程和数据将成为一体;任何大型软件开发都将着眼于人工智能。

这意味着,当工程师们寻求提升新的人工智能产品时,他们将需要培养对数据的眼光——以及如何使用数据——以便构建能够增加新的和持续价值的模型。

4. 检索增强生成(RAG)将是焦点

经过一系列备受瞩目的GenAI失败、对干净、可靠和精心策划的上下文数据的需求以增强AI产品的能力已经变得越来越明显。

随着AI领域的持续发展,一般LLM训练中的盲点逐渐明显,拥有专有数据的团队将转向RAG(数据增强生成)和微调,以增强其企业AI产品,并为其利益相关者提供可证明的价值护城河。

RAG在现场还是比较新的(它是首次引入而组织还没有围绕RAG开发出经验或最佳实践,但它们正在到来。

5. 数据可观测性

一直保持趋势的数据工程趋势——数据产品,毫无疑问,AI是一个数据产品。

如果说2023年是人工智能年,那么2024年将是人工智能产品的运营年。无论是出于需要还是强迫,各行业的数据团队都将拥抱企业级AI产品。问题是,他们真的会做好企业准备吗?

(希望)创建随机聊天功能的日子已经过去了,当董事会要求时,就说你正在集成AI。在2024年,团队可能会变得更加成熟,他们如何利用更好的培训实践来开发AI产品,以创造价值,并确定要解决的问题,而不是利用技术来制造新问题。

6. 数据可观测性将支持AI和矢量数据库

亚马逊网络服务(AWS)2023年CDO Insights调查,受访者被问及他们如何实现生成式人工智能.

最常见的答案?数据质量。

生成式AI的核心是一个数据产品。和任何数据产品一样,如果没有可靠的数据,它就无法运行。但在LLM的规模上,人工监控无法提供使任何AI可靠所需的全面和高效的质量覆盖。

数据团队要想真正成功,需要有活的、有呼吸的数据可观测性为AI堆栈量身定制的策略,使其能够在不断增长和动态的环境中,始终如一地检测、解决和防止数据宕机,以便在2024年的现代AI可靠性之战中成为竞争者。

7. 大数据会变得很小

30年前,个人电脑还是个新鲜事物。现在,随着现代Macbook拥有与2012年Snowflake推出MVP仓库的AWS服务器相同的计算能力,硬件正在模糊商业解决方案和企业解决方案之间的界限。

由于大多数工作负载都很小,数据团队将开始使用进程内和内存/进程内数据库来分析和移动数据集。

特别是对于需要快速扩展的团队,这些解决方案上手速度快,可以通过商业云产品提升到企业级功能。

8. 将优先考虑合适的模型尺寸

今天的数据领导者面临着一项不可能完成的任务。使用更多的数据,创造更多的影响,利用更多的人工智能,但降低这些云成本。

正如《哈佛商业评论》所言,首席数据官和AI官被设为失败.截至2023年第一季度,IDC报告称云基础设施支出增长至215亿美元.据麦肯锡的调查,许多公司的云支出每年增长30%.

低影响的方法在2024年将是无价之宝,如元数据监控和允许团队查看、并适当调整利用率的工具。

**9. **自动化数据科学(阿帕奇冰山)

Apache Iceberg是由Netflix的数据工程团队开发的开源数据湖表格式,旨在提供一种更快、更轻松的方法来大规模处理大型数据集。它被设计为可以轻松地使用SQL进行查询,即使对于具有PB级数据的大型分析表也是如此。

现代数据仓库和湖库将同时提供计算和存储,Iceberg专注于提供经济高效、结构化的存储,这些存储可以由您的组织中可能同时利用的许多不同引擎访问,如Apache Spark、Trino、Apache Flink、Presto、Apache Hive和Impala。

最近,Databricks宣布Delta表元数据也将与Iceberg格式兼容,而Snowflake也将尽快与冰山整合。随着lakehouse成为许多组织事实上的解决方案,Apache Iceberg和Iceberg替代品可能也将继续受欢迎。

10. 人才呢?

RTO -每个人最不喜欢的首字母。也可能是他们的最爱!老实说,我现在跟不上了。虽然团队在这个问题上似乎存在分歧,但越来越多的团队每周至少有几天被要求回到他们的隔间/开放式平面图/灵活的工作环境中。

根据2023年9月的报告90%的公司计划在2024年底前实施返岗政策——距离2020年那个决定性的春天已经过去了近四年。

事实上,几位实力雄厚的CEO——包括亚马逊的安迪·贾西、OpenAI的山姆·阿尔特曼和谷歌的桑达尔·皮查伊——在过去几个月里已经颁布了重返办公室的政策。似乎至少有一些好处在办公室工作(至少是兼职),而不是完全在家工作。

发现自己在“永远的居家营地”里?答案似乎是——就像数据中的情况一样——是提供更多的价值。尽管近期经济逆风和对就业市场的影响、数据和AI团队的需求量很大。而雇主们通常会尽一切可能获得并留住他们。一些公司要求所有员工无论担任什么职务都必须回到办公室,而Salesforce等其他公司则要求非远程工程师少去办公室,总共[每季度10天](https://www.businessinsider.com/salesforce-ceo-marc-benioff-remote-work-rto-mandate-policy-2023-9#:~:text=Salesforce’s return-to-office mandate,office 10 days each quarter.).


原文链接:https://barrmoses.medium.com/top-10-data-ai-trends-for-2024-7f830196db65

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值