数据理想国

0. 絮

前些阵子去听了一个R语言会议,发言人中有两拨:

  1. 第一拨人:极力宣扬大数据的威力,用各种案例来阐述大数据的高深莫测。
  2. 第二拨人:在说大数据之前,和大数据划清界限。就像是对待伪科学一样谨慎。

至于是非善恶咱就不掺合,我只是“攻城兽”。不过有一点是比较明确的:大数据尚处在成长期。倘若眼里看到的是20年后(或许只有10年)成熟期的大数据时代,我倒是以为:怎么吹嘘都不为过。突然想到很久之前被炒热又被炒死的物联网,想必也会有复燃的一天。

1. 大者通吃 以及 圈地活动

  • 大者通吃:大家可以把它和数据绑架一起来想。
  • 圈地活动:则是指各种盒子等参与到无线网络建设的基站倾销现象(这个可能不准确)。

大者通吃以及圈地活动都是不良现象。因为它们会导致相同的结果——企业帝国,委婉一点可以称之为有中心的企业生态圈,如果想拉点仇恨,也可以称之为垄断企业。而在这种生态圈中用户处于相对被动的位置,而作为用户,我是拒绝的。《生化危机》这一系列电影中就是企业umbrella控制了整个社会的例子。现在的大数据存在很多问题,至于到底有多少,我也懒得理会,这里只讨论两个:
1. 信息(数据)失控:自从我买了个手机,就不停地接收各种千奇百怪的推销电话、诈骗电话(我确信从未告诉过任何人如果想卖东西或者骗点钱花可以拨打XXX号码),一旦我告诉了别人自己的信息,它将流向谁就已经完全不受我控制了。而隐私保护则属于这个里面的一个重要内容。
2. 信息(数据)孤岛:前阵子买了个机械革命的笔记本,在京东和天猫都看过,不过最后在天猫下单了。持续一周的时间里弹出的50%的广告是都是京东笔记本的广告(这么卖力推,想必是利润高),却没有和天猫、淘宝有关的笔记本推荐广告,为什么呢?我其实希望天猫能告诉京东我已经下单了,因为这些笔记本广告对于我来说是100%无用的(其他的广告没准还有3%的点击可能性)。但是到目前为止,貌似是没有任何希望的。这也是我前面所说用户处于相对被动位置的一个表征。

简而言之就是:该控制的数据控制起来,该分享的数据分享出去。

2.信息(数据)的归属

前些时间一直在想这个问题:信息(数据)属于谁?首先我需要将信息分为两类:
1. 单源信息:描述事物自身属性以及特征的只涉及一个对象的信息。比如 “我体重80kg,是个灵活的胖子”。
2. 多源信息:描述2个或者多个事物之间的作用事件的涉及多个对象的信息。比如“我在京东上买了一个体重计”,我和京东发生了一笔交易。
对于第一种信息,必属于我无疑,任何未经我允许打听该信息的行为均属于“窥探隐私”的范畴。对于第二种情况则存在两种可能:

  • 公开模式:我可以在自己的本子上记录“我在京东买了一个体重计”,而同时京东也可以在他们的服务器记录“用户:9527 日期:20151111 商品:体重计 数量:1”。双方共享这一条完整信息,在一定程度上拥有该完整信息。
  • 保护模式:我只能在自己本子上记录“我买了一个体重计”,而京东则只能记录“日期:20151111 商品:体重计 数量:1”,关于另一个源的一切单源信息都是不允许被记录的,各自完整拥有自己的信息。

老师说:提出正确的问题是一切的开始。 无论最后的答案是什么?现在的信息(数据)归属方式是不健全的——用户的数据并不在用户的手里,也不受用户的控制

3.信息(数据)的存储

数据库有两种经典的存储模式:行式存储以及列式存储。前者认为如果你对A君的身高感兴趣,那么很有可能同时对他的年龄感兴趣;因此遵循相同事件的不同维度信息存储在一块,以此方便查询。而后者认为如果你对A君的身高感兴趣,那么很有可能对B君等其他人的身高也感兴趣,因此遵循相同维度的不同用户的信息存储在一起,以此方便查询。这两种模式分别契合了不同的场景,某些情况下,同一份数据,甚至会以两种方式同时存储两份以满足不同的需求。
从整体的角度来说,信息首先遵循列式存储的理念按照维度属性被不同行业切分存储,比如我们的看病信息、购物信息、聊天信息、通话信息分别被不同的行业所掌控;然后信息遵循行式存储的理念被行业内不同实体瓜分(书读的少,用词不当请见谅),比如我前面所说的天猫和京东的故事。正是这纵横(列、行)两刀就上我们的信息(数据)处在一个个孤立的岛屿上,无法充分利用。对于信息孤岛这个问题的第一个回答是超级数据中心——先不管这个伟大的工程实现多么困难,请允这个梦想的存在,并且他确实看起来能解决问题。但这是我所拒绝的,原因再说一遍:用户是被动的。有人说互联网上的行为都是赤裸裸的,没有隐私;那么,这个超级中心的存在将会让你体会到什么是:赤裸裸的同时转圈360度,让别人全角度观察。
下面是重点主题部分了
至于第二个回答则是——源中心。每个对象都对应一个数据中心,实现最完整的行式存储。既然用户的数据被纵横两刀切分到各行各业,为什么不在切分之前,就完整的记录一份,放在用户的手中。思前想后,这也是我想到的一个最靠谱的解决数据孤岛的方法:减少用户记录自身数据的难度,协助用户构建、管理自己的数据中心,让用户的数据掌握在用户手里,让数据的世界从有中心到无中心(每个人都有自己的数据中心,其实也就没有了所谓的中心)的转变。——我们假设已经有一个S公司来承担这一重要使命。

4.信息(数据)的采集

S公司的帮助下,我的机械革命笔记本已经成为了我的数据存储中心、处理中心;用了快两年的路由器打开了数据中心到任何智能电器之间的会话通道;我的手机成为一个数据处理、数据缓存、数据采集、数据交互的移动终端。
在一个冬天的下午,我爬起床,冲个澡,准备活动一下筋骨——去沃尔玛买点吃的。逛了一圈,貌似食欲并未被激发,我只好对手机说:“觅食开始”。1秒之后有了答案:先去买2个橙子,然后去旁边的拉面馆吃酸辣土豆丝盖浇面橙子+辣面什么鬼?不过和什么都不做比起来,貌似是个不错的选择。在买单的时候,我会先把手机和收银员的柜员机进行配对,收银员扫描商品时,我同时从中获取我的购物信息,我只需直接确认付款。我来到附近的拉面馆吃了一碗面,考虑到要和老婆大人汇报财务,我含着泪水告诉手机:“下午茶,青菜拉面,10元。”回到家,一个人突然觉着有点儿无聊,于是打开电脑,向数据中心发出“关注周边活动”的指令,立马展现出一大片K歌、相亲的活动,我随便刷了几页,然后右击设置,选择依据词频匹配程度排序(这里说的词频你可以暂时理解为搜狗输入法对我们日常输入的词频统计)。有一些“XX沙龙”,好高端的样子,(电脑弹出一个提示:”今日消费统计已经生成“,果断关闭了),我最终还是对一个“徽杭古道徒步”情有独钟……(梦醒了)
不知道大家在这个故事中看到的是什么?但我最想表达的东西有3个:
1. 由于数据归属的转移,用户发生从被采集数据主动收集数据的转变,从而克服了多种数据壁垒。
2. 用户是一个自由用户,不是任何应用app或企业的用户,不会对这些产品产生畸形依赖。(这个貌似没有强烈的即视感,提示一下:故事中吃饭和找活动都没有显示的使用某个平台)
3. 部分个性化问题的计算工作,由用户自己的数据中心来完成。实现数据的第二次整合计算。(付费排名,呵呵呵~~~~)

5. 结语

还有很多的问题需要被回答,但是并不必我回答,如果这是”潘多拉之盒“,那么已经打开;如果不是,那就更没有必要讨论这个问题。我要说的话只有一句:用户的信息请还给用户,用户的数据中心请让用户管理。遵循这点或许很多难题(最典型的例子就是多重影分身问题)从来都不会并不存在。

曾经我也有一个梦想,而这就是那个曾经,我相信这将是未来的一部分。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值