关于数据治理和AGI发展的思考

一、通用人工智能AGI发展思考
当前,我们正处在一个科技飞速发展的时代,通用人工智能(AI)已经逐渐渗透到各行各业。作为AI领域的一个重要分支,通用人工智能(AGI)受到了广泛关注。人们普遍认为,AGI技术含量高、前沿性强,有望引领下一次科技革命。相比之下,数据治理似乎显得无关紧要,甚至被认为是没有技术含量的工作。然而,事实并非如此。

二、AGI和数据治理发展遇到的问题
先来回顾下,这两者到底是干什么的?
数据治理是指对数据进行有效管理、维护和利用的一系列过程,包括数据采集、存储、清洗、分析、安全等环节。数据治理旨在确保数据的真实性、准确性、完整性和及时性,为企业决策提供有力支持。AGI,即通用人工智能,是指具有广泛认知能力、能够理解、学习和应用知识的人工智能系统。AGI的目标是使机器在各个领域都能达到甚至超越人类智能水平。
再来剖析下两者的联系
(1)我们AGI的发展有三个群体,底层的模型研发人员、基于模型进行应用开发人员、使用人员即用户了,这三类中人群中,模型研发人员,随着最后竞争的洗牌,最后不会有很多厂商和产品,这种人员也不会很多,最多的无疑是基于模型进行应用开发的人员,也就是AGI开发人员了。
在AGI应用开发中,包括几块吧,首先懂业务或者能快速的熟悉业务,才能设计应用,然后在开发阶段,你必须要懂代码可以不精,当前AI的发展,你不用很精通代码,我们熟悉的pycharm或者idea中都能继承AI,协助你编写代码、解决疑难杂症,最后就是模型的部署和微调了,这个现在也提供了很多工具,比如Ollama、LLamaFactory、VLLM等,如果还想省事,那现在大厂做好的如coza、各家的智能体中心等,都提供了一站式解决方案。但这些如果是项目,想真正有效的落地,都需要数据集!高质量的数据集!为模型或智能体提供训练样本,如果数据集数据样本少、质量不高,不管再高大上的AI项目,都将失败。这些也是有案例的,大家可以查查GPT发展时在这方面的投入。
(2)数据治理呢,发展到现在,在知识体系和产品上都非常成熟了,那么大家遇到过什么问题呢?例如a)在处理传统的结构化数据是很成熟了,但在面对非结构化数据时能力不足,例如我们之前在处理传统文本时,用机器学习在实体关系识别上、情感分析上总是很麻缠;b)业务人员无法用自然语言获得各项数据指标,都需要技术人员进行报表开放,来回就错失了业务决策的时机,这也是之前GITHUB上text2sql工具火的原因;c)业务人员无法用自然语言检索数据资源,查看数据资源质量情况,传统的我们都知道基本是是关键字搜索、加个切词器,而在向量化搜索做的不多不完善;d)数据治理中各种规则配置、同质化脚本需要大量人工,经验无法复制且无法保障质量;e)工作中很多文档,很多数据,在写方案时努力在回忆在哪里?如何组织?f)当前数据开发的质量,数据的质量,数据制度的执行情况,只能按预定规则去评估;g)数据安全风险识别,数据安全等级提醒,需要投入很多人工维护。等等吧

三、如何更好地推进数据治理与AGI协同发展
(1)AGI推动数据治理技术进步。随着AGI技术的发展,数据处理、分析和挖掘能力将不断提升,为数据治理提供更先进的技术手段。数据治理与AGI相互促进。良好的数据治理为AGI提供了高质量的数据支撑,有助于AGI更好地学习和应用知识,提高智能水平。
(2)树立正确观念,AI项目的落地,是一项工程,需要AI算法工程师+AGI应用工程师+数据工程师的深度配合,不是只关注AI模型算法是否高大上、模型是否惊艳,更应该关注每个环节的重要性。否则可能因为训练不充分、数据质量问题,导致AI大模型是个弱智,项目失败。也不要走另外一个极端,想着把这所有工作集中到一个人身上(超级个体)。
(3)提高组织意识,让数据工程和数据科学并中。企业应充分认识数据治理和AI应用的重要性,同步建设,互相融合,培养专业人才。

总之,数据治理与AGI并非相互独立,而是紧密相连、相互促进的两个领域。在新时代背景下,我们应充分认识数据治理的重要性,推动数据治理与AGI协同发展,共创智能未来,确保项目的成功落地。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值