关闭

大数据与传统数据

标签: 大数据
1575人阅读 评论(6) 收藏 举报

小编说:在这个人人都说大数据的时代,许多人对大数据的印象只是停留在仰望的阶段,其实大数据没人们说得那么神奇、玄乎或者是无所不能,今天我们就以传统数据作为比对,看看大数据究竟有什么特点让其处于时代的浪潮之巅。 
本文选自《从1开始——数据分析师成长之路》。

  大数据与传统数据相比的主要特点可以概括为:数据量“大”、数据类型“复杂”、数据价值“无限”。 
【图1】
  数据量大十分好理解,以前我们存储数据使用的单位是 KB,一个Excel表格也就几十到几百KB,现在我们经常说到GB甚至是TB乃至PB的数据量级,它们的数量关系如下所示。 
                       1MB=1024KB 
                       1GB=1024MB 
                       1TB=1024GB 
                       1PB=1024TB 
  更直观一点,1KB相当于512个汉字,1MB就相当于六本红楼梦的字数……而淘宝网在2015年3月每天大约能产生7TB的数据量,相当于4000万本红楼梦的数据量,而中国最大的图书馆中国国家图书馆的藏书量是3000万册。由此看来,我们的大数据着实是数据量巨大了。而只说能够产生如此大量数据的原因有哪些呢?我们不妨从数据获取的方式、数据传输的方式和数据存储的方式来探讨数据量大的这个问题。 
  数据获取方式的质变是大数据能够产生的核心要素。传统的数据获取方式多是以人工的方式获取数据,最大的特点是手动输入数据,曾有一段时间,超市是通过要求收银员键入用户特征来采集用户数据的,键盘的样子大体上会是如图3-3所示的造型。 
【图2】
  超市通过这样的方式来收集用户的数据,对收集的数据进行分析,来对用户画像与人群定位。试想在超市每天如此大的接待量情况下,收银员能否保证数据录入的准确性呢?与此同时,通过人工输入的方式每天能够采集多少数据呢?类似的这种键盘记录的方式还有许多人工录入数据的方式不再一一举例,传统记录数据的方式必定只能是小范围的,少量的和准确度欠佳的。而现在的数据获取方式大多是通过URL传输和API接口,大体上数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享。 
【图3】
  自有数据与外部数据是数据获取的两个主要渠道。在自有数据中,我们可以通过一些爬虫软件有目的的定向爬取,比如爬取一批用户的微博关注数据,某汽车论坛的各型号汽车的报价等。用户留存多是用户使用了公司的产品或是业务,用户在使用产品或是业务中会留下一系列行为数据,这个构成了我们的数据库主体,通常的数据分析多基于用户留存的数据。用户上传数据诸如持证自拍照、通讯录、历史通话详单等需要用户主动授权提供的数据,这类数据往往是业务运作中的关键数据。相较于自有数据获取,外部数据的获取方式简单许多,绝大多数都是基于API接口的传输,也有少量的数据采用线下交易以表格或文件的形式线下传输。此类数据要么采用明码标价一条数据多少钱,或是进行数据共享,交易双方承诺数据共享,谋求共同发展。 
  至此,我们看到新时代的数据获取形式相较于传统数据获取的方式更加多元、更加高效。 
  同样的大数据与传统数据的传输方式也截然不同。传统数据要么以线下传统文件的方式,要么以邮件或是第三方软件进行传输,而随着API接口的成熟和普及就好像以前的手机充电接口,从千奇百怪、五花八门到今天的两大主要类别:iPhone系统与Android系统。API接口也随着时代的发展逐渐标准化、统一化,一个程序员只用两天的时间就能完成一个API接口开发,而API接口传输数据的效率更是能够达到毫秒级。 
  在数据存储方面,大数据的存储环境相较于传统数据的存储已经跃升了好几个数量级。犹记得十多年前软盘还非常高级,存储量达到20MB的软盘已然很贵,更别说U盘和移动硬盘了。 
  大数据与传统数据的另一个显著差异是数据类型的丰富。传统数据更注重于对象的描述,而大数据更倾向与对数据过程的记录。为了便于大家理解,下面简单的举个例子说明传统数据与大数据的记录方式有何区别。 
  传统数据的记录方式如下表。 
【图4】
  大数据的记录方式如下表。 
【图5】
  很明显地看到,传统数据和大数据记录数据的最大区别是大数据不仅对对象进行了描述,还加入了时间、地点等维度,这样的数据记录的是一个过程,从小明进入餐厅之前开始一直到小明离开餐厅,这整个过程都会被记录下来。而传统数据的记录方式更倾向于对结果的简单描述。 
  当然,大数据能记录的用户就餐数据远不局限于上述所列的字段,理想状况的大数据监控甚至会记录用户吃饭的方式、吃饭时的行为、吃饭时的面部表情等一系列数据,这些数据反映了用户对就餐环境的感受,对餐食口味的反应,进一步可以用来改进就餐环境、食物口味,给出点餐建议。 
  大数据与传统数据的核心差异在于其价值的不可估量。传统数据的价值体现在信息传递与表征,是对现象的描述与反馈,让人通过数据去了解数据。而大数据是对现象发生过程的全记录,通过数据不仅能够了解对象,还能分析对象,掌握对象运作的规律,挖掘对象内部的结构与特点,甚至能了解对象自己都不知道的信息。 
  诸如某百科对一个人的描述与概括,记录了这个人的身高、体重、出生年月、兴趣爱好、日常活动、亲朋好友等数据,这些算是传统数据,通过这些传统数据你能知道和认识这个人。如果用大数据的方式来记录一个人,那就可以详细到他几点起床、睡眠质量、身体状况、每个时间点在做什么事等一系列过程数据,通过这些过程数据我们不仅知道和认识这个人,还能知道他的习惯性格,甚至能挖掘出隐藏在生活习惯中的情绪与内心活动等信息。这些都是传统数据所无法体现的,也是大数据承载信息的丰富之处,在丰富的信息背后隐藏着巨大的价值,这些价值甚至能帮助人们达到“所思即所得”的境界。 
  大数据价值的特殊之处就在于它的可挖掘性,同样的一堆数据,不同的人能得到不同层次的东西。就好像同样见一个人,有些人只看他的外貌好不好看,有些人能从他的表情中读出心理活动,从眼神中看出阅历,从衣着打扮中读出品味,从鞋子上读出生活习惯。而这些深层次的非表象的内容需要技巧与实力去挖掘出来,这就是我们说的数据分析与数据挖掘。 
  本文选自《从1开始——数据分析师成长之路》,点此链接可在博文视点官网查看此书。 
                     图片描述

  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                     图片描述


0
0
查看评论

大数据与小数据

开始文章之前,先声明一下,文章的内容有的是大虾自己的理解,也有是网络上的内容,但是尽量不会去做大段的复制,如果实在有雷同得太厉害的,纯粹巧合。另外文章中的观点仅代表我个人想法,不对正确与否负责,希望有自我辨识能力的朋友有选择性的阅读。   本文的部分思想观点出自 Jules&...
  • allenlu2008
  • allenlu2008
  • 2014-08-14 21:53
  • 2121

大数据与传统BI的区别在哪?

大数据和商业智能BI已不是陌生的词,但很多人都并不能很好区别这两者之间的关系,为了更好理解两者区别,我们大圣众包威客平台分享一篇来自网络的文章,从多个角度维度探讨大数据和BI的区别!   大数据与传统BI是社会发展到不同阶段的产物,我们从几下几个纬度来可以迅速的看出两者的区别: ...
  • dashenghuahua
  • dashenghuahua
  • 2016-11-09 17:47
  • 1089

文思海辉贾丕星:大数据时代对传统数据仓库的五点思考

大家知道文思和海辉是去年年底合并的,从集团研发对我们支持角度来说:第一点祥麟给了我们一个很好的技术规划体系。第二个是智慧金融这个概念,把所有金融事业群解决方案有效整合在一起。形成应对未来银行业务发展很好的体系。从这两个角度来说,给了整个商业智能部这边很大的支持。今天我讲的是数据仓库的概念。我们这个团...
  • nisjlvhudy
  • nisjlvhudy
  • 2015-04-17 14:45
  • 2227

Hadoop和传统大数据处理方式的差别

Hadoop和传统大数据处理方式的差别 本文摘自:Markboo新浪博客 说道Hadoop,就要先讲到大数据。 上个世纪,好远。。。九十年代后,开始,数据开始大量的产生,总之到了快没法弄的程度了。 比如说之前90年代,一个1G的硬盘,传输速度4.4M每秒,读取全盘大概需要5分钟。 现...
  • luxialan
  • luxialan
  • 2014-12-25 17:36
  • 1481

传统数据与大数据

作者:萝卜(微信:Robbie_Qi) “问世间,大数据为何物,直教人众说纷纭”。一本《Big Data》的书,掀起了大数据的浪潮,不管是IT人士,还是媒体精英,都在议论大数据,春运大数据、出游大数据、美食大数据、阅读大数据……,那么,大数据到底是什么呢?难道量大、数大就是大数据吗?如果是这样,大...
  • dtqyhq
  • dtqyhq
  • 2015-02-10 11:50
  • 163

工业大数据漫谈3:什么是工业大数据?

前面两部分我们大概了解了一下大数据的由来和特点,这一部分我们来看看什么是工业大数据,它和传统我们理解的大数据有什么不同?         在了解什么是工业大数据的时候,我觉得我们有必要先了解一下什么是工业以及工业都包括哪些门类。    ...
  • guanhui1997
  • guanhui1997
  • 2017-03-14 10:51
  • 777

大数据和统计的区别

大数据和统计的区别主要有两个方面:其一是数据分析时不再进行抽样,而是采用population(n=all);其二是分析方法,侧重所有变量之间的相关性,而不再根据背景学科理论筛选变量,进行假设检验。 这两点具体来说区别如下: 大数据的应用,解决了一般统计方法上主要误差来源:抽取样本以及假设检验中使...
  • lifuxiangcaohui
  • lifuxiangcaohui
  • 2016-04-07 14:01
  • 4465

大数据到底如何在企业中发挥价值

目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端、服务方提得较多一些。笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他们有什么关系,或者说作为企业方怎样去参与,这是企业方现在面临的最大问题
  • zhf257
  • zhf257
  • 2015-09-13 22:22
  • 792

浅谈数据仓库和大数据

前言 上一篇文档简单的聊了聊BI和大数据的关系,今天开始谈一下我对数据仓库(以下简称数仓)和大数据关系的理解。。。 1.数据仓库的概念 2.数据仓库的组成 3.数仓和大数据的关联       3.1数仓的前世今生 总结
  • Gospelanswer
  • Gospelanswer
  • 2017-10-11 21:34
  • 290

大数据对信息资源管理的影响

从大数据的角度看,当今社会已不再是那个信息匮乏的时代,而是人们只要想要某方面的信息,就会被各种各样的信息所淹没。所以在这个时期无论是从国家、政府的宏观层面,还是各种企业、组织这种社会的中观层面,或者每一个个体的微观层面,进行信息资源管理都无疑受到大数据的影响。
  • u014277388
  • u014277388
  • 2016-06-09 17:45
  • 1066
    个人资料
    • 访问:3921822次
    • 积分:56481
    • 等级:
    • 排名:第57名
    • 原创:1462篇
    • 转载:83篇
    • 译文:1篇
    • 评论:3786条
    博客专栏
    文章存档
    最新评论