近几年,随着数据和人工智能越来越受关注,数据与人工智能项目(统称数据项目)也遍地开花,和传统应用类项目相比,数据项目有其自身的特点和挑战,本文就来盘一下这些挑战。
01 数据质量,横亘在理想与现实之间那道坎
企业想从数据里面发掘价值,首先需要有数据,大部分企业面临的问题不是无数据可用,而是无可用数据。
多年的业务经营,许多企业已经积累了大规模的数据,看上去是一笔巨大的财富,这就会造成一种假象,会让企业的管理者和高层过高估计数据给他们带来的价值,相应的也会对数据项目产生过高的预期。
理想状态下,数据是能够带来价值的重要的生产要素,但现实是,真正打开之后,才会发现可以直接拿来使用的数据并不多,比如数据存在各个系统孤岛里,获取不到;比如,数据的标准不统一,口径不一致;比如,数据中出现大量的错误,许多关键数据是缺失的,矛盾的,等等,这些都是数据质量问题。
举个典型的例子,服务过的某家车企,想做一些老客深挖、通过老客引入购车机会的事情,这个工作需要基于数据分析老客的特点和行为特征,从而预测老客带来新客户的可能性,但当真正基于数据做客户分析和模型开发时,发现只有不到40%的数据可用,可想而知,模型结果也就不具备很高的参考性,这和企业的期望是相背的。
所以数据项目从立项那一刻起往往就背上了一个不切实际的预期,项目被认为是炼丹炉,数据进去,丹药出来,包治百病,很少会有人考虑炼丹成功的几率问题。
要提高胜算的几