《品味大数据》之序言

作者按】写了一年多,流了一堆汗,拙作《品味大数据》终于在亚马逊京东当当网等网店上线了。作为小人物,写了本关于大数据的科普读物,虽不免于被大家们所不屑,但这本小书,也见证了我一年多的思考与成长历程,我思故我在嘛,值得纪念一下,特把图书的序言发表于此,如同一些大煞风景的游客,在建筑物上刻着“xxx到此一游”一样,若干年后,我也想说那么一句,“嗯,那些年,在大数据流行的时候,俺也写过那么一本书!”折腾了一辈子,人过要留名,雁过要留声,算有这么件事。


没有大牛为我写序,我为自己代言。

以下为我的序言。


 

在路上,学而时习之


当下,大数据(Big Data)被炒得如此之火,以至于很多人都在谈论它。有人逢人说项,甘做它的布道者。也有人对大数据的炙手可热,嗤之以鼻。然而,到底什么才是大数据,却没有太多人能真正说得透彻。

引用TED[①]的创始人[更正:杜克大学著名行为经济学教授、畅销书《怪诞行为学:可预测的非理性》作者]丹•艾瑞里(Dan Ariely)写在自己脸谱网(Facebook)上的一句玩笑话:大数据就像青少年谈性,每个人都津津有味地谈论它,却没有人真的知道如何来做,而每个人又认为其他人在做,于是每个人都声称自己在做[②]

张玉宏:品味大数据


艾瑞里对大数据的理解,无厘头中不乏有趣,他形象地道明了,很多人在谈论“大数据”时,其实都有这么一种似是而非的感觉。

可能是所学专业为计算机的缘故,过去时常有友人问我这个“专业人士”有关大数据的问题。因为对此领域并未涉猎,每每那时,我心里不免发虚,甚至“两股战战,几欲先走”。迫于这种压力,我决定一探究竟,大数据到底是个什么东西?为何几乎身边每个人都在谈?就这样,我踏上了学习的大数据之路。

随着对大数据的不断学习,我逐渐明白:对于大数据,真想要弄个清清楚楚、明明白白,并非易事!学习的道路也并不平坦。为了避免“偏信则暗”,就得“兼听则明”,集众家之所长,花费大量时间和精力,去阅读很多文献和书籍。

为了让自己更清楚地理解大数据,在学习的路上,我就对大数据的体会以及一些有关大数据的核心观点和关键技术,包括其中的些许感悟和随想成文,形成了一系列的科技随笔。

这些科技随笔如《来自大数据的反思:需要你读懂的10个小故事》、《大数据,小数据,哪道才是你的菜?》、《大数据专家Bernard Marr:大数据是如何对抗癌症的?》及《PayPal高级工程总监:读完这100篇论文 就能成大数据高手》(编译)等,先后在知名中文IT社区CSDN上作为头条发表,并被很多大数据网站及微信公众号平台上转载,得到了读者的普遍好评,心感甚慰。

后来,北京大学出版社和龙马教育的编辑老师鼓励我,让我把大数据的科技随笔和学习笔记集结成书,写一本半学术化的大数据科普图书。编辑老师的“盛情难却”,但我又“诚惶诚恐”。

这是因为,在中国,“文人相轻”由来已久。或许就有读者会很“犀利”地质疑,现在有关大数据的书如此之多,何差你这一本?

这里,我不妨用哈佛大学著名统计学家孟晓犁(Xiao-LiMeng)教授的一句格言,聊以自慰:“你不需要先成为一名酿酒师,才能品酒[③]”。而拙著的名称恰恰就叫《品味大数据》。

在这本书中,我把很多学者、大家的观点汇集、梳理后呈现出来,他们的观点都从不同角度,自成一家之言,诸多观点之间甚至可能相左,在书中我并没定论哪个观点正确与否,而是交给读者来判断。犹如上了一桌菜,请君品尝,然后,你说那道菜好,那它就好,是为“品味”之寓意。

此外,在写作过程中,我也常用法国作家安德烈·纪德(AndreGide)的话,来给自己打气:“所有值得拿出来说的事情,早就已经被人说过了。但是,由于以前根本没有人在听,所以必须拿出来再说一遍。”

著名作家、曾经的优秀程序员王小波先生曾戏言[④],写作其实就是个“减熵”的过程。熵(Entropy),代表的是信息的一种不确定度,一种未知的程度。对于王小波先生的写作而言,“减熵”过程,其实就是将不确定的、不靠谱的情节,尘埃落定,让它确定下来。这个过程并非易事,很可能是“出力不讨好”的。

王小波先生对写作的评论,让我想起我在本书第三章写下的两段话:

“今天之大数据,之所以再次吸引众人的眼球,就是因为当下的数据体积之庞大、种类之繁多、呈现之迅速,再次超过了当前秩序的容量,于是混沌重现。

但大数据的价值之大,也吸引着人们不得不接纳这种‘混沌’。但‘混沌无序’的大数据,是不能给我们创造价值的。因此,目前所有大数据的研究,在本质,都在干一件事,无非就是将这个无序的大数据时代,变得更加有序、变得可控、变得能为我所用。”

其实第一段话,概括起来,就是大数据给世人带来了“增熵”。第二段话核心思想就是,大数据价值很大,吸引世人为之折腰,为挖掘其价值,就得“减熵”。

由此看来,王小波先生所言的写作过程,其实和大数据的处理过程,在本质上,有异曲同工之妙。

王小波先生的“文学创作”,天马行空,收放自如。科技(或科普)写作好像还难以做到这样。在笔者图书的创作过程中,有时感觉到写作(更确切地说,是学习)过程,其实还是个“增熵”的过程。这是因为,有时候,想把一件事情(或一个概念,一个技术细节)弄明白、写清楚,就得去查阅很多资料,结果查得越多,感觉自己不知道的就越多,“熵”的水平就上来了,信心随之降下去了。有时候,写作也非常摧残人的自信,阅读大量的文献,常常让自己感到渺小和无助。

在我心中,时常有两个小人在纠结斗争。一个富有阿Q精神的乐观小人骄傲地说:写吧,写吧,从CSDN发表的文章反响来看,还不错,一些已经面世的大数据图书,还不一定有你写的深入浅出呢?而另一个“横眉冷对”的悲观小人——小D则狠狠打击道:你这么说,这样写,难道就不怕让那些大数据“大家们”贻笑大方吗?

感性地说,写作不仅是一个智力活,也是个心理自我调节的活,它更是个体力活,要花大量的时间、精力,投入其中。这本书的面世,花费了笔者一年有余的几乎所有休息时间,可谓累身累心。此刻,笔者算是更加深刻地体会到曹雪芹对《红楼梦》的自我评价:“满纸荒唐言,一把辛酸泪,都云作者痴,谁解其中味?”

在这本书里,笔者采用了562个注解(其中包括很多经典的论文、图书及网页资料),之所以这么做,就是为了确保文中的观点是靠谱的,是有据可查的。况且,参考文献的价值,有时大过著作(或论文)本身。这是因为,即使读者认为著作(或论文)本身不咋样,但通过参考文献的指引,相信读者也能快速找到更有价值、更高档次的文献材料[⑤]

在这本书里,还配有248有信息量的插图。因为有时候,“一图胜千言”。书中没有复杂的公式,也没有难懂的代码。笔者尽量用通俗易懂的语言,告诉你大数据中比较晦涩难懂的概念和术语。

在这里,之所以用“562”和“248”这样量化的数字,无非是想告诉读者,这是一本很有诚意的、尽心尽力的大数据图书。

在这本书中,侃侃而谈的范围很广,小到街头巷尾的小故事、网络段子,大到《自然》、《科学》高级别的学术论文。我会把有关大数据的一些(鼓励的、批评的及反思的)观点,加上我的一些注解,以图文并茂、通俗易懂的方式展现出来,力图让读者心有余力地品读大数据。

图书的大致布局大致分为如下4大块:第1章~第3章,主要漫谈了大数据有趣的历史,包括数据的启蒙、信息载体的演变和数据管理的发展脉络。第4章~第6章,主要聊聊了大数据的内涵,包括大数据与哲学及第四科学范氏的关联。第7章~第9章是大数据的杂谈,包括大数据的用途所在、可能面临的陷阱以及通过小故事对大数据进行了一些反思,第10章~第11章主要涉及大数据的技术,包括100多篇大数据论文的漫读及Hadoop的实战篇。整体的脉络概括起来就是四个字——“顶天立地”,所谓“顶天”,是指我们先讲了一些“务虚”的大数据道理,而所谓“立地”,是指我们随后又聊了聊比较接地气的大数据技术。

两千多年前,孔夫子就曾说过,“学而时习之,不亦说乎?”,这句话都有着很多精彩的解读。费孝通先生认为[⑥],“学”是和陌生事物的最初接触,“习”是陶炼,而“不亦说乎”描写得则是熟悉之后的亲密感觉。

在大数据学习之路上,笔者更加喜欢杨伯峻先生在《论语译注》[⑦]中对这句话的解释:“学了,然后(按一定的时间)去实习它,不也高兴吗?”对于大数据的学习,也应是这样,大数据的道理我们懂了之后,然后在得创造条件去实践它。这也是本书的写作初心。

读完这本书,读者能从中得到什么呢?在回答这个问题之前,我们先重温一下2012年《哈佛商业周刊》刊登的一篇文章[⑧],文章指出,数据科学家是21世纪最性感的一个职业(Data Scientist :The sexiest Job of 21st Century)。在这个数据日益泛滥成灾的大环境下,对于这个论断,不管你信不信,反正我是信了。

数据科学家,其实就是采用科学方法、运用数据挖掘工具,在数据中寻找有价值的新洞察的那么一群人。

而想成为这么一群人,首先要具备大数据思维,认可大数据能带来大价值。我们知道,思维影响决策,很多时候,正确的思维,能起到非常重要的战略引领作用。阿里巴巴董事局主席马云先生,就是一个非常励志的例子。作为一位曾经的大学英语教师,其本人并不懂什么具体的大数据技术,却能够非常成功地带领阿里巴巴走上大数据之路,并布局未来,要从IT(Information Technology,信息技术)向DT(Data Technology,数据技术)战略转型。这不仅仅是技术的升级,更是思维方式的巨大变革。而这本书的前半部分,有助于读者培养这方面的大数据思维。对于文科背景的读者,效果可能更为明显。

大数据思维有了,还得“知行合一”,把思维落实到行动上。这就需要有专门从事大数据技术的DT工程师。数据科学家的主体,其实就是这类人群。对于理工科背景的读者而言,这本书除了能辅助读者培养大数据思维,它还是一个通俗易懂的大数据技术“综述”,特别是本书的最后两个章节,能为读者提供大数据技术全栈的“大图(Big Picture)”,并能给读者带来一个比较感性的初级技术入门。

从笔者把这本小书定位为科技随笔,就可看出,这本书之所以能得以面世,真真切切地源于它是“站在巨人的肩膀上”的。这里,笔者由衷地感谢很多前辈、大家以及网络资源提供者所做的贡献,没有你们的真知灼见,就没有这本书!

最后,说句很老套但很重要的话,由于本人的能力、学力及精力有限,书中疏忽甚至错误之处,在所难免,真心欢迎读者朋友的批评和指正。

张玉宏 

 



[①]TED(Technology, Entertainment, Design,即技术、娱乐、设计)是美国一家著名的致力于传播创意的非盈利组织。该机构以组织的TED大会著称,这个会议的宗旨是“用思想的力量来改变世界”。

[②]对应的英文原文是:Big data is like teenagesex: everyone talks about it, nobody really knows how to do it, everyone thinkseveryone else is doing it, so everyone claims they are doing it.....

[③] 对应的英文原句是:Youdon't need to become a winemaker to become a wine connoisseur.

[④] 池建强. MacTalk·人生元编程[M]. 北京:人民邮电出版社.2014

[⑤] 亲,你看懂这句话背后的含义了吗?在这本书里,有目前市面上大多数大数据畅销书的核心观点。在一番了解之后,如果想深入理解,再买他们书,这样省时省力省银子,多好!

[⑥] 费孝通.乡土中国.北京大学出版社.2012年10月

[⑦] 杨伯峻.论语译注(简体字本). 中华书局.2006年12月

[⑧] DavenportT H, Patil D J. Data scientist: the sexiest job of the 21st century.[J].Harvard Business Review, 2012, 90(10):70-6, 128.

 

---------------------

读者来信交流:zhangyuhong001@gmail.com


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值