作者 | 橙子
审核 | gongyouliu
编辑 | auroral-L
数据处理(上)
在上一期文章中,我们讲到了阿里巴巴运营数据的外三板斧,那么今天我们讨论的是“数据处理”。
想要了解如何处理数据,我们首先要学会慢慢淡化数据。数据是有优先值的,想要确定数据的优先值,就要先解决以下几个问题,一是数据的标准化。在大数据时代,我们需要一个标准化的东西供我们进行交流。二是我们到底如何对接和交换数据,如何在交换的时候保持数据的稳定性,比如自然语言,比如在无线和PC不同场景下受到的影响,这些情况都会滋生出许多新问题。
第三个重要的问题是数据的存储,这将涉及数据的时效性这一问题。有人曾经提出过一个很有价值的观点,即现实中,网站最大的场景变化就是网站改版。因为重新设计网站,本身就影响数据。比如公司的详情页和首页,任何改变都在影响数据。如果在一到三年后,你才说得出数据的这一改变是由于促销、用户行为或是改版引起的,那这一数据就已经没有任何价值了,这就是数据的时效性。
所以,美国出现了一个概念叫“数据淡化”,意思很明显,数据会慢慢淡化。我们要更清楚地认识到,数据是有优先值的,在数据中,有些是特别核心的,有些即使缺失了也没有多大问题。我们要学会真正坐下来,盘点那些对公司最有价值、对用户最有价值的数据,这是一个非常重要的趋势。
了解了“数据淡化”之后,我们再来看看数据的标签化管理。数据的属性标签是人类经验判断的数据,是数据后的数据。例如,当你要为一件物品打上标签时,其实就已经动用了你的经验数据分析,并进行了归纳总结,结合当下的环境给出了判断。如果没有考虑环境的影响及准确性的评估,这种经验加上直觉的判断是不稳定且又难以解释的。但从数据收集的角度去看,数据的属性标签又是一个潜力极大的数据。
在数据属性的管理上,对于用户来说,每个人身上贴的标签都是多种多样的,但是对于企业来说,如何将这些标签归一,如何用一个点去将之串联,又如何把这些点连起来去描述这个用户,才是核心问题。
比如,你要去应聘一家公司,A公司对你的评价是“很可靠”,B公司对你的评价是“不可靠”,C公司准备雇佣你,然后C公司看到了A公司和B公司给你贴了两个标签,“可靠”和“不可靠”,那么C公司就会感到困惑。
这样的问题常常发生,那么我们要怎么去做标签的管理呢?首先,我们要明确的是,“可靠”这个概念是没有标准化意义的,除非在标签定义之前,我们就界定清楚了“可靠”的标准,否则“可靠”的标准是准时还钱、说话算数、还是他向来都很守时,我们就无从得知了。如果这些标准是“可靠”,就给予了我们一种可以还原数据的能力。
属性管理的层级化十分有必要,但是在使用数据前,必须要了解数据的场景、数据是如何放进去的和数据的场景是什么,在这一切未知之前就说数据如何好用的话,是不可能的。所以现在企业运营数据的趋势是,我们应该找出一些属性进行归类,然后再慢慢的考虑如何提炼,这对于未来非常重要。
本文的视频版本可以直接点击下面视频观看,欢迎关注数据与智能视频号获取更多精彩视频。