「大数据的关键思考系列」22:数据处理(上)

本文探讨了数据处理中的关键概念——数据淡化和标签化管理。数据淡化是指随着时间推移,数据的价值逐渐减弱,强调数据的优先级和时效性。而标签化管理则涉及如何有效地组织和解释数据,特别是通过属性标签来理解和利用数据。作者指出,明确标签定义、实现数据的标准化和归一化是确保数据有效性的关键步骤。企业应重视核心数据的识别和管理,以便在未来更好地利用数据资源。
摘要由CSDN通过智能技术生成

作者 | 橙子

审核 | gongyouliu

编辑 | auroral-L

数据处理(上)

在上一期文章中,我们讲到了阿里巴巴运营数据的外三板斧,那么今天我们讨论的是“数据处理”。

想要了解如何处理数据,我们首先要学会慢慢淡化数据。数据是有优先值的,想要确定数据的优先值,就要先解决以下几个问题,一是数据的标准化。在大数据时代,我们需要一个标准化的东西供我们进行交流。二是我们到底如何对接和交换数据,如何在交换的时候保持数据的稳定性,比如自然语言,比如在无线和PC不同场景下受到的影响,这些情况都会滋生出许多新问题。

第三个重要的问题是数据的存储,这将涉及数据的时效性这一问题。有人曾经提出过一个很有价值的观点,即现实中,网站最大的场景变化就是网站改版。因为重新设计网站,本身就影响数据。比如公司的详情页和首页,任何改变都在影响数据。如果在一到三年后,你才说得出数据的这一改变是由于促销、用户行为或是改版引起的,那这一数据就已经没有任何价值了,这就是数据的时效性。

所以,美国出现了一个概念叫“数据淡化”,意思很明显,数据会慢慢淡化。我们要更清楚地认识到,数据是有优先值的,在数据中,有些是特别核心的,有些即使缺失了也没有多大问题。我们要学会真正坐下来,盘点那些对公司最有价值、对用户最有价值的数据,这是一个非常重要的趋势。

了解了“数据淡化”之后,我们再来看看数据的标签化管理。数据的属性标签是人类经验判断的数据,是数据后的数据。例如,当你要为一件物品打上标签时,其实就已经动用了你的经验数据分析,并进行了归纳总结,结合当下的环境给出了判断。如果没有考虑环境的影响及准确性的评估,这种经验加上直觉的判断是不稳定且又难以解释的。但从数据收集的角度去看,数据的属性标签又是一个潜力极大的数据。

在数据属性的管理上,对于用户来说,每个人身上贴的标签都是多种多样的,但是对于企业来说,如何将这些标签归一,如何用一个点去将之串联,又如何把这些点连起来去描述这个用户,才是核心问题。

比如,你要去应聘一家公司,A公司对你的评价是“很可靠”,B公司对你的评价是“不可靠”,C公司准备雇佣你,然后C公司看到了A公司和B公司给你贴了两个标签,“可靠”和“不可靠”,那么C公司就会感到困惑。

这样的问题常常发生,那么我们要怎么去做标签的管理呢?首先,我们要明确的是,“可靠”这个概念是没有标准化意义的,除非在标签定义之前,我们就界定清楚了“可靠”的标准,否则“可靠”的标准是准时还钱、说话算数、还是他向来都很守时,我们就无从得知了。如果这些标准是“可靠”,就给予了我们一种可以还原数据的能力。

属性管理的层级化十分有必要,但是在使用数据前,必须要了解数据的场景、数据是如何放进去的和数据的场景是什么,在这一切未知之前就说数据如何好用的话,是不可能的。所以现在企业运营数据的趋势是,我们应该找出一些属性进行归类,然后再慢慢的考虑如何提炼,这对于未来非常重要。

本文的视频版本可以直接点击下面视频观看,欢迎关注数据与智能视频号获取更多精彩视频。

188211cc16a5de60cd4e78112a279e35.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据与智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值