2020年 我对数据行业的思考 | 特邀专栏

疫情之下,半年已过。2020年,似乎过的特别快,也特别难,各行各业。今天我想回首这半年下来对数据这个行业的一些观点,我看到了一些趋势的变化:数据行业的重心从“获取存储”迁移到“开放共享”;数据应该从“越用越贬值”变成“越用越值钱”;数据已经变成一个企业的资产和负债;数据人才缺口会越来越大……
本文叙述的故事较长,娓娓道来,几个关键词汇参考下图。
 

乘风破浪的数据行业


数据中心是新基建的重点
我一定要先聊下数据中心(IDC),因为今年有几个比较重要的事件:

  • 阿里巴巴

4月20日,阿里云宣布,未来3年再投2000亿,用于云操作系统、服务器、芯片、网络等重大核心技术研发攻坚和面向未来的数据中心建设。

  • 英伟达

5月14日,英伟达在GTC2020上推出安培架构,并宣布首款基于安培架构、用于数据中心的GPU——NVIDIA A100已经投产并交付。英伟达抢占数据中心市场的目的十分明显:先是收购全球领先的数据中心和存储系统高性能互联解决方案供应商——Mellanox,后又推出针对数据中心市场的芯片。

  • 腾讯

5月26日,腾讯云与智慧产业事业群总裁汤道生公开宣布,未来五年将投入5000亿元在新基建,包括云计算、人工智能、区块链、大型数据中心、物联网、5G网络、音视频通讯、网络安全、量子计算等都将是腾讯重点投入的领域。其中,在数据中心方面,腾讯将在全国新建多个百万级服务器规模的大型数据中心。

为什么阿里和腾讯巨资投入IDC市场,一份来自赛迪顾问的数据显示,2019年中国数据中心数量大约有7.4万个,约占全球数据中心总量的23%,数据中心机架规模达到227万架,在用IDC数据中心数量2213个。2019年,超大型、大型数据中心数量占比达到12.7%,规划在建数据中心320个,超大型、大型数据中心数量占比达到36.1%。这一数据与美国相比仍有较大差距,美国超大型数据中心已占有到全球总量的40%。

国内搞IDC的一个非常有意思的现象,互联网巨头+传统企业联合打造,比如杭钢股份和天猫、马钢股份和腾讯等等,因为传统企业具备足够的场地、电力、冷凝、安全等软硬件基础设施,最重要的是这些传统企业都面临着业务转型需求,一拍即合。

数据中心已经是一个古老的词汇,但是未来一定会是持续发酵的战场,5G与物联网、车联网、工业互联网等会给互联网带来十倍乃至百倍的数据增量,直接倒逼存储芯片和数据中心的供不应求。

数据中台从粗放式到精细化的进化

做过技术的同学应该都听过“数据中台”的概念,不过也是最近几年。往往我们听到更多的是后台和前台。企业为什么流行中台了呢?中台和后台有什么区别呢?


简单讲,数据后台负责管理数据,数据中台负责运营数据。数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,出于分析性报告和决策支持目的而创建。


企业要发展、要提效、要降低成本,数字化运营是必经之路。数据中台产生的业务决策替代了大部分的前台业务“know how”,也就是我们常常说的数据模型,然后演变成数据服务,这个“know how”与“data service”最终形成了企业的数据资产。VC市场常常会对一个有数据沉淀的公司估值那么高,很大的因素不仅仅是它有吸附数据的基因,更多地是看中数据产生的价值。


没有数据中台的适合,前后端的耦合性高,人才不够专业,你可以想象一下一个精通数据出库技术的工程师,如何训练出一个最好的营销投放模型,那是一件度么不容易的事情。数据驱动业务,也就是我们在实际工作中的精细化运营,更需要的是对业务有数据分析能力的分析师,数据中台可以为量化决策提供最好的支持。

(图来源:中国数字中台行业研究报告:2018年规模为22.2亿)


数据行业的本质应该是赋能


服务于数据行业的格局每年都会发生微妙的变化,但是在大的视图上,大概就分为三个主赛道:大数据技术、大数据服务、大数据应用。我说的变化,体现在赛道上。比如这两年出现的数据安全赛道就出现了升级(过去十年的数据安全重在防御,未来十年的数据安全还在流通)。因为数据安全,很多游走在合规边缘的数据公司会被淘汰,比如最早出现问题的数据堂等。


大数据技术,从2003年Google GFS论文发表至今,已经相当的成熟与稳定,国内更多的所谓的大数据技术更多在采集与存储、挖掘上,比如某盾起家于设备指纹,通过设备指纹SDK抓取手机设备的信息;某信立则做了一个爬虫,抓取用户的运营商数据。我想说的是,更多的所谓的大数据技术范畴的公司,并非真正给大数据本身的技术带来进步。改变行业的技术可以看如下主线:


大数据服务,这个竞争尤其激烈,有人说:“只要你有一点运营商的关系,你就可以成为运营商大数据的代理商”,难道不是吗?某某聚合,就是一家聚合了三大运营商的数据。实质上,大数据服务的这类公司,并没有创造新的服务,只不过是做了一些便捷。我觉得未来的大数据服务商,更多地是应该赋能数据源、赋能行业机构甲方,它的核心能力应该定位在分析建模的能力。

大数据应用,国家战略已经打开了一扇窗,鼓励数据开放流通应用。随处可见,各行各业似乎脱离了大数据,一切的效率都满足不了需求。假设没有大数据,我们如何来识别疫情防控阶段的人流与去向,疫情期间的二维码就是大数据应用在疾病防控上影响最广的案例,运营商通过分析个人手机的LBS数据,绘制出个人的出行地址,并给出是否出现在高位风险地区的红码报警提示。如果脱离的大数据,显然这样的高效率社会秩序的治理是无法实现的。

数据重在运营,存储不是目的

数据如果只是存储,不进行运营,高额的存储成本如果没有提升业务的效能,那只会变成企业的负债。


数据存储一定不是目的,如果数据只到存储阶段,那只会增加额外的成本。这些年,国内数据中心目前处于“重建设轻运营”的状态。甚至是企业内部的微型数据中心,缺乏数据分析能力的团队更多地“为存而存”,更多地技术停滞在服务器和存储硬盘的投入、在做数据的抓取或者录入、在做结构化和非结构化数据库的管理和升级。企业机构在选择如何存储的技术上,从关系型到非关系型、从本地到云等维度都进行了技术升级。简单地来说,过去企业完成了存储方式的技术升级,同时完成了数据库安全的管理。


除了量化运营的互联网企业,更多的业务运营还停留在经验模式。我看到过一些公司,试图加持大数据的概念,完成了数据的存储,但实际业务比如营销似乎并没有将数据的价值发挥到及格。

要完成数据存储到数据运营的推进,核心是人才,包括具有数据业务经验的业务经理、数据分析师等。数据仓库工程师的职责是按业务经理的需求把底层数据往上做表,做成支持业务的可视化工具(比如漏斗、曲线),数据分析师需要将业务投射到数据上,通过一些统计算法、机器学习、深度学习等工具得到一些量化指标,这些量化指标将成为决策业务的一种依据之一。比如,电商平台通过用户画像得到用户兴趣偏好,系统自动推荐兴趣度更大的商品;通过行为数据分析得到用户习惯的消费时段,系统自动发放营销卡券等。当然在今天,掌握核心精细化运营能力的互联网企业已经做的很好,但是我想说的是,偌大中国、万千企业,有更多的企业并非像这些优秀的互联网企业这样做的美妙与高效。

面向业务的数据人才难求

互联网对IT人才的需求不断在升级,从最早会C++就可以混口饭吃,到今天,企业对IT工作者的要求在不断上升。数据行业,倒退十年,你只需要会把数据接入到mysql,然后会写SQL进行增删改查,可以很舒适地完成所在企业的业务,并且得到主管的点赞;倒退五年,我们发现,需要开始熟练掌握hadoop生态,因为企业数据的增长导致关系型数据库很难满足查询需求,比如一个具有亿级别的APP用户行为日志;时至今日,即使工程师在处理数据本身的技术上再牛逼,也很难做到部门经理等管理职位,因为企业更注重的是管理者对数据的运用、对业务的成果。


交叉学,包括对数据存储技术的精通、对数据计算的精通、对数据分析技术的精通、对业务场景数据建模的精通、对数据安全的考虑。这很难一开始从高校毕业生上发现,三年五年具有企业项目经验的工程师会具有绝对优势。


因为更多的企业将数据基础的技术与平台采用云或者SAAS平台的方式,对数据平台工程师的刚性已经缓解,如何基于数据平台的数据进行业务升级与优化,这可能是BOSS们最想要的。


我比较倾向说这样的角色叫“数据业务架构师”,他解决一个企业“业务+数据”的漂亮升级。这种人才画像,要求不低,简而言之,行业稀缺的原因是:懂数据的不识业务、懂业务的不识数据。

数据是AI三要素之一

人工智能 = 数据 + 算法 + 算力。

  • 数据,从“软件输出”到“软件输入”

数据成为人工智能的一个输入,从人工智能的角度来讲,软件范式从“确定——>函数——>数据”变成“数据——>函数——>预测”,AI完成了一个大规模历史数据来推导决策函数的过程。数据一定是人工智能加持各行各业的必须要素。


人工智能并非必须得到数据本身,目标是数据内在的知识和价值。还是拿信贷风控来举例,放贷机构的本意并不是要得到用户各种维度的数据,在意的是这些数据联合训练建模后得到的信用评估。这就是一个典型的人工智能赋能于金融的业务场景。


人工智能在过去很长一段时间并未对数据做很好的保护,今天看因为数据安全问题,导致很多本来已经看似很智能的业务遇到了瓶颈。如何在既保证数据安全的前提下,又能最大程度地把数据利用起来,成为人工智能面临的最大难题之一。

  • 算法,从“数据集中式”到“数据分布式”

“数据——>函数——>预测”的推导过程,一定逃不出大家熟知的算法。从古老的统计,到借助于机器学习,再到深度学习,这些算法都在试图对大规模的样本进行按业务场景的分类、拟合。预测与判断在机器替代人脑上最重要的事件,无人驾驶汽车需要预测向左还是向右行驶,智能空调需要判断是不是要自动开启空调给客厅降温,银行风控决策系统需要判断借款人员是否会按时还款,能给出预测和判断的原因是通过一些统计学范畴的算法,对已经存在的实际数据进行大规模的训练,得到预测模型。


算法的拟合效果(我们叫训练效果与测试效果)是否表现优异,和数据有极大关系,和算法选型上也有关联。比如银行风控就比较适合用LR算法,强调业务的归因和可解释性;营销就更适合树类算法,对更大数据量和特征规模的处理表现出优势。


在AI里面,机器学习和深度学习算法已经渐渐成熟,但是这些成熟更多地表现在“数据集中式”的训练过程。因为数据孤岛导致的小数据割据,分布式算法必将成为未来解决人工智能的核心技术之一。

  • 算力,从“面向数据”到“面向算法”

云计算,近几年的行业规模增长表现突出,中小微企业将计算资源采用租赁的形式,以更廉价、更快捷、更稳定的方式获取。微软在PC时代,鲍尔默“坚持以windows为中心”,(认知囚牢),后来纳德拉将PC端转移到云服务,最终拯救了微软。放眼世界,亚马逊成为云计算的帝国;回看十年,阿里云历经艰难终见曙光,王坚博士荣升为院士。云计算在世界与中国都表现出非常好的成长态势。


人工智能终将用算法对数据进行计算,这个过程需要更快的运算能力和更廉价的硬件成本。过去云计算大多面向企业、面向数据,未来的云计算将面向算法、面向场景,作为一家营销机构,可以直接在云计算平台以最高效廉价的方式得到预测结果,我称之为“智能云”,这是算力与算法的深度融合。

数据主权必须是用户


数据的主权,我想这里省略掉,因为我怕说错话,然后本文被404。


但是,我觉得有一句话一定不会有错,数据最应该是“取之于民,用之于民”的社会生产要素。

如果是涉及到用户个人的数据,这个数据的主权必须是用户本人的。
拥有用户个人数据的企业,应该需要得到用户的授权,才可以有“拥有权”、“使用权”。拥有可能代表企业能存储,使用可能代表企业可以分析数据,反刍给用户,给用户带来更好的体验。


除了法律法规对数据的使用约束,数据确权更需要技术来加持,区块链技术也许是确权不二之选,数据从出生到消亡的整个生命周期,被谁使用、产生的价值网络,都必须有一个不可篡改的去中心化账本,这个账本明细是日后东窗事发的陈堂证供!

隐私保护与数据使用的两难

都说过去十年,是移动互联网带来的“互联网2.0”时代,的确,“移动”给人们的生活方式带来巨大的变革:手机成为比爱人更重要的伴侣,我们已经习惯“身无分文”地去马路边扫二维码买烤红薯,习惯随手拍下一段视频分享在自己的社交圈,习惯在缺钱的时候填写简单的身份信息就能获取一笔贷款,习惯不去报停买份地图而只听林志玲嗲嗲的导航语音……


人们生活质量提升这一切发生的太美妙,但是,似乎这十年,伴随着移动互联网的科技将人们的衣服一件件地脱掉,脱的一览无余,没有任何隐私可言。似乎你每天的一举一动已经不是秘密,你每天去哪里呆着,手机会记录下来;你浏览了什么商品,打开邮箱都会收到这个商品的广告;你在百度查了一下贷款,保证你的抖音、网易新闻给你推贷款产品;在赤裸裸一点,你和税住过什么酒店 …… 我们几乎已经是透明的存在了。


唯一让你我兴奋的一点是,世界在这个事情上是相对公平的:无论贫贱,在移动互联网上裸奔的待遇,几乎人人平等。有人说手机绑架了人们的生活,从前慢;我说手机也脱光了你我的衣服,在裸奔。这种现象已经成为一个时代的特征之一,过往十年,历历在目。

这是一个现象,社会与科技进步的同时,用户的隐私问题被逐渐放大,直到今天,用户隐私已经成为一个法律问题、一个社会问题、一个人文问题。


谈一个最近比较有影响力的事件,中信银行池子事件。要知道,在中国,银行应该是一个最具有公信力的机构。老百姓一定会在未来某日开始担心把这一辈子的积蓄存在一个把用户的数据肆意贩卖给机构的银行,这种事件是极其恶劣且具有社会负面效应的。

科技本应美好,无奈让人无处藏身、裸奔多年。该帮人们穿上去了,穿上去,你依旧风采动人,这好比,我们都会觉得苏琪是一个好演员,因为她穿上去了。

数据安全将从“面向防御”扩大到“面向流通”


过去,大部分数据安全科技领域的科技公司,都着重解决企业数据的存储安全、入侵防御,这是必要的。由于金融科技的暴力发展,在数据流通使用过程中出现了极其恶劣的用户隐私泄露问题,行业开始重点关注数据流通环节的安全问题。

面向数据流通,核心技术是隐私计算(安全计算),它解决了企业与企业之间数据流通的安全问题。隐私计算,指在保护数据本身不对外泄露的前提下实现数据分析技术的一类信息技术,主要分为可信硬件和密码学两大领域。

  • 可信硬件

指可信执行环境,核心思想是构建硬件安全环境,数据仅在该安全区域内进行计算。可信硬件以Intel-SGX、ARM-TrustZone、Ucloud-安全屋等为代表。

  • 密码学技术

密码学技术目前以多方安全计算为代表。多方安全计算,针对无可信第三方的情况下,安全协同计算,多个参与实体各自持有秘密输入,各方希望共同完成对某函数的计算,而要求每个参与实体除计算结果外均不能得到其他参与实体的任何输入信息。

数据安全本已经是一个千亿市场,扩大到数据流通安全,可以把空间想象的更大一点:所有数据源要输出,需要用安全计算的技术;所有金融机构要使用数据,需要用安全计算的技术。而就这一个点上,再衍生出一个千亿市场,难道是梦吗?

一种设备数据的理想国


这是一段”夜半小夜曲“:基本上的APP都会让用户授权抓取地理位置、安装列表、通讯录等,不同的APP鱼龙混杂,存在更多的APP其实并不是为了让用户体验升级。比如地图软件APP,需要用户授权地理位置才可以实时导航,这是“取之于民用之于民”;再比如一个天气软件,让你授权地理位置的同时,也偷偷摸摸让你授权安装列表,这就有点遐想空间了。


天马行空想一想,设备授权抓取的口子,应该全部由手机厂商来统一做,开发者只能基于手机厂商的个人钱包来做数据应用,这个钱包可以用区块链技术来完成。
 



这个方式也许是很理想国的,但是会从根本上更好地治理手机设备数据的滥用。用户可以通过手机主动打开或者关闭抓取数据的权限,主动授权设备厂商与APP的数据,被APP使用后,可以得到数据的租金(只要你愿意被使用,你的电子钱包就在增值)。APP抓取用户数据被手机厂商从设备上切断,抓取数据的动作完全有手机厂商支配,成为一个开发者的安全计算平台,APP要使用数据,必须遵循手机厂商的标准化接口或者方式。标准与监管可以缩小到为数不多的手机厂商。


写这个故事,是为了表达一个意思:数据业务只要你敢想象,存在无限的商业空间机会,创新与试错很重要(更多前沿资讯请关注微信号“hellompc”)。


小结
如果你在数据这个行业,好好干吧,前方高能,待你乘风破浪。


 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值