大数据基础知识(上)

什么是大数据

在这里插入图片描述
大数据这个词含义模糊,具有相对性。 我们最好反着来定义它。 大数据不是常规数据不是寻常行业。 即使有经验的数据分析师, 也不一定就可以处理。 换句话说,大数据是不符合寻常分析模式的数据。 它不适合 Excel 电子表格的行和列。 它不能用传统的多元回归法来分析可能也不适合普通的电脑硬盘。 另一方面,可以用数量多、 流转快和种类多来描述大数据。 道格·莱尼在 2001 年的一篇文章中, 将它们作为大数据最常见的特征, 但它们肯定不是唯一的特征。 我们会在稍后讨论大数据其他的特征。 先来看看这三个特征中的第一个:数量多。

数量多

用最简单的话说,大数据就是数量太多, 而无法用你的计算机处理的数据。 显然,这是相对的。 对一个时期的一个系统来说太多, 对另一时期的另一个系统来说, 就是寻常事了。 这符合摩尔定律的一般观点, 这个计算机科学领域著名的定律认为, 计算机的物理容量和性能大约每两年翻一番。 举个例子,我的苹果电脑陪我读完了研究生, 它有两兆内存和 80 兆硬盘,对当时来说, 现今一个最便宜的闪存盘中的数据, 就堪称大数据。 又比如,Excel 电子表格的行数上限 随时间推移,在不断变化。 之前是 65,000 行,现在超过了 100 万行, 看起来很多。但如果你要记录每秒发生的成百上千次的互联网活动的话, 很快就会达到上限。 另外,对于照片或视频, 如果需要把所有信息一次性存储到内存中, 又完全是另外一种情况。 我的手机拍摄一张照片要占用 2-3 兆, 视频每分钟占用约 18 兆,每小时达到 1 千兆。 这是手机。如果是专业摄像机, 每分钟要占用多达 18 千兆, 很快就会积累大量数据。 现在,大家把这叫做“海量数据”。 数据的含义与过去一样,只是量更多。 这就引出了流转快和种类多的问题。 我们先来讨论速度。

流转快

大数据的产生速度非常快。 在传统的科学研究中,从 100 个案例中 收集数据可能需要数月,分析数据需要数周, 发表研究报告需要数年。 这些数据不仅需要花时间来收集, 而且获得后通常是静态的,不会改变。 举个例子, 常被用来教统计过程集群分析的数据集, 是由埃德加·安德森收集、 罗纳德·费希尔分析的鸢尾花数据集, 两人都在 1936 年发表了论文。 这个数据集中包含 4 个属性: 3 种鸢尾花的花瓣和萼片的宽度和长度。 有大约 150 个样本。这个数据集使用广泛。 它是统计编程语言 R 中内置的一个数据集, 将近 80 年都没有变化。 另一方面,如果你想使用推特等社交媒体 平台的数据,则可能需要处理海量数据。 事实上,现在全球每秒要诞生大约 6000 条推文。 也就是说,每天 5 亿条,每年大约 2 千亿条。 我们可以用网上的实时计数器来看一看。 这个网站显示,今天大约发送了 3.41 亿条推文, 而且更新速度非常快。 即使是微处理器上连接的一个简单的温度传感器,一次只发送一个数据位, 长时间运行的话,也会让计算机不堪重负。 这种不断涌入的数据叫做“流数据”, 给分析工作带来了独特挑战, 因为数据集是一个不断变化的目标。 如果你用惯了静态数据集, 那么在 SPSS 或 R 等程序中, 流数据可能十分复杂,极难处理。

种类多

下面讨论大数据的第三个特征:种类多。 种类多是指不仅有在电子表格中 分成行和列、格式规整的数据集,还有许多不同格式的数据表。 可以是非结构化文本,比如书籍和博文、对新闻和推文的评论。 一位研究人员估计,80% 的企业数据可能是非结构化的, 因此这很常见。其中也包括照片、视频和音频。 还有的数据集包括社会关系数据, 比如网络化图形数据。 如果你要处理非SQL数据库中的数据集, 就可能会有社会关系图。 你还可能有层级结构和文档。 任何不适合传统关系数据库 或电子表格的行和列的数据格式, 都可能会在分析时带来一些非常严重的挑战。 事实上,福雷斯特研究公司的一项研究表明, 种类多是导致企业采用大数据解决方案的最大因素。“种类多”被提及的次数, 是“数量多”的四倍多。

大数据需要具备全部三个特征吗?

有一个问题:数据要同时符合数量多、 流转快和种类多这 3 个特征, 还是只符合 1 个特征,就是大数据? 如果同时符合 3 个特征,就是大数据, 这可能没错,但任何一个特征都远远超出了 标准数据处理方法的能力。 事实上, 大数据意味着不能用标准方法来处理它。 因此,大数据会带来一些特殊挑战。 我们会在后面讨论这些问题。 首先来看看大数据是如何使用的, 以及大数据为研究、商业, 甚至是普通消费者带来的一些惊人成果。

如何使用大数据

在这里插入图片描述

了解消费者大数据

大多数时候,人们谈论的大数据是指商业环境中,企业可以如何在广告 或营销策略中使用大数据。但大数据还有一个重要用途,是面向消费者的。有趣的是,尽管涉及许多数据和算法, 而且处理过程非常复杂,人们却几乎感受不到它。 结果很明确,可提供少量信息,但正是你需要的。 我来介绍一些面向消费者的常见大数据程序,你可能正在使用,却没意识到 里面蕴含着复杂的大数据分析。首先是 iPhone 或 iPad 里的Siri。除了提供天气信息,Siri 还能听懂你的意思、知道你的位置和提到的时间,从而为你找到供应某种食物的餐厅,并查询能否预订。它可以做很多事,比如获取别人的推荐,确定你的位置,并了解随着时间推移,人们的喜好发生了哪些变化。另一个是 Yelp。 很多人用它找餐厅,而它也根据来自用户和其他来源的数百万条评论, 做出非常精准的建议。 现在,我在加州的卡平特里亚搜索泰国菜。前两个匹配结果是这两家餐馆。 下面讨论的推荐引擎,你可能并不陌生。 它是一种为你提供具体建议的软件。 Yelp 就是一个例子,但人们更熟悉电影、 书籍和音乐等的推荐引擎。 这是我的 Spotify 账户。 Spotify 知道我正在听的歌曲、听过的所有歌曲、我向列表中添加的歌曲 和我跳过的歌曲,它能给出具体建议, 帮助我发现不知道的新歌手。 我喜欢 Spotify 提供的一些东西。 与这类似,亚马逊网站提供图书推荐。 例如,这是我最喜欢的一本书, 作者是朱尔斯·伯曼。 如果向下滚动,会看到一个推荐书单。 这是由亚马逊的推荐引擎生成的, 里面是几本有关大数据的书。 它的原理是一样的。 很多人使用网飞看电影。 网飞会推荐你可能喜欢的电影。 有趣的是,几年前他们举办了一个大赛, 想知道是否有人能提高他们的预测准确性, 也就是推荐用户真正喜欢的电影。 如果能帮他们提高 10% 的预测准确性, 就可以获得一百万美元奖金。 这里的分析非常复杂, 但最终结果依旧非常简单, 系统推荐一些电影, 通常你都能从中选出喜欢的。 还有这个应用程序。 它的目标是帮助你与他人合作, 让城市变得更美好。 目标很简单,但这个应用使用了来自推特、 谷歌地图、Instagram 和房产机构提供的照片、 数据和 API,还用到交通系统和 市民投诉热线的信息, 是真正凸显大数据多样性的海量数据集。 **前面提到的那些展示了大数据的规模, 但这个应用显示了多样性, 要整合来自很多不同地方、不同格式的数据, 帮助人们在一些简单的事情上合作, 改善社区。**最后,我要介绍的是谷歌即时, 它在你询问之前会主动提供建议, 尤其是将它与手机日历和定位功能绑定时。 它知道你的位置、目的地, 可以主动提供交通或天气等信息。 同样,这都建立在人们搜索的各类 海量信息的基础上,并以主动方式提供。 对消费者来说,大数据在提供有用服务方面 发挥着巨大作用。但神奇的是,大数据的运行是无形的, 它从多个不同的来源获取大量信息, 然后从中提炼出两三样你需要的东西。

了解企业大数据

上一个视频介绍了, 大数据为消费者提供的重要便利和功能。 对企业来说,大数据正在彻底改变商业模式。 在这个视频中,我要介绍几个场景, 其中大数据被证明非常有用, 或不同寻常、十分有趣。 先来说说大多数人 在商业环境中接触到大数据的场景: 谷歌广告的搜索结果。 在谷歌或其他搜索引擎上进行搜索时, 你会输入搜索词。 然后你会看到搜索结果,同时也会看到广告。 举个例子,我在上面搜索“大数据”。 页面下方出现三个广告。 这些广告不是随机投放的, 而是有两个依据: 一是我正在搜索的内容; 二是谷歌掌握的关于我的信息。 如果我登录了自己的账户, 谷歌就能利用我搜索过的所有内容, 以及有关我的其他信息, 向我投放它认为我最可能做出响应的广告。 这些信息是通过大量可用数据获得的, 目的是向消费者推荐最合适的东西。 另一个有趣的场景是预测性市场营销。 这是指使用大数据, 来提前确定谁是某些东西的受众。 例如,预测生活中的一些重大事件, 比如毕业、结婚、找到新工作、生育, 或者任何通常能够 产生一系列商业交易的事件。 要做到这一点,企业可以研究消费者的行为, 比如查看你登录他们网站的频率, 了解你使用什么信用卡, 查看你浏览某些特定内容的频率, 调查你是否已经在他们公司申请了帐号。 他们可以利用已经掌握的大量信息。 同样,他们可以使用人口统计信息, 比如今年多大、是否已婚、 有几个孩子、家住哪里、离门店有多远、 工资可能有多少、近期是否搬过家、 有哪些信用卡、访问过哪些网站等。 所有这些信息都可能以这样或那样的形式, 被想要做出预测的企业获取。 同样,他们也可以利用其他买来的数据。 他们可能会获得有关你的民族、工作经历、 杂志订阅、是否宣布破产或离婚、 是否上过大学 以及在网上参与讨论的话题等方面的信息。 他们可以获得的信息太多。 这就引出一个非常重要的话题。 实际上,我们有一系列关于道德和大数据的视频,后面会讲到。 根据以上这些信息, 企业可能预测到你打算买一套新房子, 而且购买新房子时需要购买大量物品, 所以他们会在你发生购买行为之前, 将你列为目标受众。 我们要讨论的另一个大数据应用场景, 是趋势预测。 这在时尚界非常有趣。 这家公司 (www.editd.com) 因为使用大数据预测时尚趋势,而备受赞誉。 他们可以告诉零售商, 什么时候最流行什么颜色、款式和品牌, 并且帮助零售商定价。 显然,这些信息 对于要销售这些产品的公司来说,非常重要, 而这家公司能够凭借对大数据的分析, 来提供这些信息。 关于大数据在商业中的应用, 我要说的最后一点是欺诈行为检测。 事实上,欺诈已成为一个庞大的产业。 网络零售商每年因网络欺诈 损失大约 35 亿美元, 每年保险欺诈导致的损失 估计超过 400 亿美元, 这还不包括医疗险。 所以欺诈是一个大问题。 事实证明, 企业可以做很多事情来减少欺诈行为, 特别是网络交易欺诈。 他们可以分析销售点,也就是你购物的方式。 是在线购买吗?在哪家网站购买? 他们可以通过地理定位,知道你的实际位置。 他们可以查看 IP 地址, 确定你访问网站所使用的电脑。 他们可以查看登录时间。 如果你有一次在凌晨 4 点买东西, 而以前从没在晚上 11 点后登录过, 那就很可疑。 有趣的是, 他们也可以使用生物识别技术等方法。 我和一位从事计算机安全工作的同事交流过, 他说,一个人移动鼠标的方式, 或者按键的时间间隔, 都是独特的行为特征。 我们在看手机时, 不同身高的人拿手机的角度不同, 手机里的加速计可以测量出来。 所有这些都可以用于确定, 购买者是不是本人。 我就曾因此而受益。 记得几年前,美国运通给我打电话, 询问我是否刚刚在中东 预订了 4000 美元的酒店房间。 我并没有。 后来还发现一些在中东之外进行的小额交易, 这说明我的账户被盗了。 幸运的是,美国运通事先停止了这些付费, 而且帮助我妥善解决了问题。 这在很大程度上是因为, 他们的超大数据集中的具体细节和模式, 让他们意识到这些异常可能是欺诈行为, 而在我的例子中,确实存在欺诈。

了解科学研究大数据

在前面的视频中,我们了解了大数据 在个人生活和商业领域发挥的作用。 我们还要快速了解一下, 大数据如何彻底改变学术研究领域。 下面有几个有趣的例子, 展示了大数据如何影响科学进步。 一项研究表明,通过分析维基百科上 流感相关词语的搜索模式, 可以更准确地发现流感的爆发。 美国国立卫生研究院启动了“大脑计划”, 目的是根据大量人脑扫描数据, 来绘制完整的大脑功能图。 另外,美国国家航空航天局的 开普勒太空望远镜, 一直致力于寻找太阳系以外的行星。 这里显示,目前为止它已经确认了 2300 多颗行星,还有 2000 多颗有待确认。 言归正传, 大数据也对心理学研究产生了影响。 几年前,在美国发表了一篇关于性格的论文, 描述了不同的性格群体: 中西部的人友好且传统,西部的人悠闲、 有创造力,东北部和一些南部地区的人 比较情绪化、无拘无束。 我想说的是,这不是根据大家 对这些地方的感觉得出的结论, 而是发表在美国心理学会期刊上、 一项很高质量的心理学研究。 另一组研究人员在脸书上 创建的一款程序, 以科学有效的方法来测量性格。 他们获得了数十万名受访者的数据, 然后将这些数据与每名受访者在脸书上的 点赞模式结合,创建了一个问卷程序。 只要你回答整个调查问卷, 就可以根据你的点赞情况, 非常准确地评估你的性格。 最后是谷歌图书项目。 多年来,谷歌一直在扫描 过去几百年来出版的书籍。 目前已经扫描了上千万本书籍, 并进行了数字化,这让数字人文学的研究人员 能够了解词汇随时间的变化。 举个有趣的例子, 比如过去的两百多年非常流行几个词: 数学、算数和代数。 二三十年代,“算数”一词的使用频率很高, 但随时间推移逐渐减少, “数学”一词在五六十年代越来越多地被使用, 到 2000 年左右达到高峰。 这只是大数据发挥作用的一个例子。 我们要说的是,大数据可以提供的信息量 非常大,可以整合的信息多种多样, 而且数据产生的速度非常快, 特别是对于流感趋势等不断变化的情况。 所有这些都让大数据得到充分利用, 推动科学研究和发展。 大数据的现状令人激动,前景值得期待。在这里插入图片描述

大数据与数据科学

大数据与小数据的差异

大数据不仅具有 前面视频中讲到的 3 个特征, 也就是数量大、流转快和种类多, 其实还有一些其他特征。 朱尔斯∙伯曼撰写了这本书:《Principles of Big Data:Preparing, Sharing, and Analysing Complex Information》, 里面列出了大数据与小数据的 10 个不同之处, 我来逐个介绍一下。 首先是目标。 小数据通常针对特定目标而收集。 而对于大数据,刚开始可能有目标, 但事情会变化,或朝意想不到的方向发展。 第二是位置。 小数据通常在一个地方, 往往在单个计算机文件中。 大数据可以位于多个文件中, 并分布在不同地理位置的 多个服务器或计算机上。 第三是数据结构和内容。 小数据通常高度结构化, 比如 Excel 电子表格, 其中包含多行多列数据。 大数据可以是非结构化数据, 以多种格式出现在多个学科的文件中, 而且可能关联到其他资源。 第四是数据准备。 小数据通常由最终用户为个人目的而准备, 大数据通常由一组人准备、另一组人分析, 再由第三组人使用, 这些人可能有不同的目的, 而且学科也可能不同。 第五是数据寿命。 小数据通常在项目结束后只保留一段时间, 因为有明确的结束时间。 在学术界,数据寿命 可能是 5 到 7 年, 到期后你就可以删除。 但对于大数据, 每个数据项目往往因为成本高昂, 而延用到其他项目中, 因此数据是永久性的,会保留很长时间。 这些数据可能作为新数据被加在前面、 或作为之前发生的事情的背景数据、 其他变量,也可能与不同文件相关联。 所以与小数据集相比, 大数据集寿命长得多,且非常不确定。 第六是测量。 小数据通常使用设定好的单位, 按照一个协议来测量,而且通常同时完成。 而对于大数据, 因为人们处在不同地点、不同时间、 不同组织和不同国家地区, 所以可能需要使用不同的协议来测量数据, 而且可能需要做大量转换工作, 来保持一致性。 第七是再现性。 如果流程中出现问题, 小数据集通常可以完整地再现出来。 而大数据集因为有多种形式、 来自不同方向, 因此如果出现问题,可能无法再现。 通常最好的方法是, 至少找出数据项目的哪些部分存在问题, 并在处理问题时注意这些部分。 第八是利害关系。 如果小数据出现问题,成本是有限的, 这不是大事。 但对于大数据,项目成本达到数亿美元, 数据丢失或损毁将导致项目失败, 甚至可能毁掉研究人员的职业生涯, 或导致企业破产。 第九是内省, 这是说数据以一种重要的方式描述自己。 对于小数据,理想的方式是用三元组。 它也被用在一些编程语言中。 首先指定被测量的对象, 例如我的家乡:美国犹他州盐湖城。 第二,指定要测量什么, 也就是数据值的描述符。 在这里是平均海拔,单位是英尺。 第三,给出数据值: 海拔 4226 英尺。 小数据集的数据结构规整, 各个数据点可以识别, 数据的含义一般都很清楚。 但大数据集中包含许多文件和多种格式, 结构很复杂, 可能导致我们无法识别或定位信息, 或者信息无意义。 显然,这会降低大数据在各种场景中的实用性。在这里插入图片描述
最后一个特征是分析。 对于小数据,通常可以用一个流程, 一次性分析一个计算机文件中的所有数据。 但大数据的量很大, 而且分布在多个不同的文件和服务器中, 所以可能必须执行提取、检查、缩减、 标准化、转换和其他步骤, 并且一次处理部分数据, 才能更轻松地管理数据,并最终汇总结果。 现在我们知道, 大数据的特征不只是数量多、 流转快和种类多。 还有许多实际问题, 让大数据比小数据更复杂。 不过,这个课程会讨论一些 解决这些问题的一般方法, 让大数据为我们带来更多好处, 避免一些麻烦。

数据科学的三大领域

在这里插入图片描述

谈到大数据时, 大家几乎总会谈到数据科学和数据科学家。 就像大数据的定义仍有争议一样, 数据科学的定义也是如此。 一些人认为,这个词只是统计学和统计学家的一种时髦说法。 而另一些人认为,数据科学是个不同的领域。 它与常规统计学具有不同的培训、 技术、工具和目标。 这个视频将讨论这些内容。 首先,我们来看看所谓的数据科学文氏图。 这张图是德鲁·康威在 2010 年制作的, 他认为数据科学是 3 种不同技能的组合。 第一种技能是右上的统计学。 第二种是底部的领域知识, 比如,你实际掌握的管理、 广告或体育招聘知识。 第三种是左上的编程, 也就是计算机编程能力。 他认为,数据科学从业者需要 同时具备这三种技能。我们会逐个介绍这些技能,然后组合起来介绍。数据科学的第一个组成部分是统计学,因为这是关于数据的科学。要注意的是,统计学和数学中的很多内容都是反直觉的,如果你没有受过专门的正规培训,可能会犯一些重大错误。举个简单的例子,概率中的生日问题,就是弄清楚一个房间里 有两个人生日相同的概率有多大。直觉表明,要想让这个概率达到 50%,房间里要有超过 180 人,因为这个数字大概是天数的一半。而正确答案要比这个数目少得多。 只需要 20 多个人,这个概率就能达到 50%。 因为数据科学家经常要寻找匹配和关联,所以能够正确计算这些概率至关重要。 因此,数学训练是数据科学的重要组成部分。 数据科学的第二个要素是领域知识,也就是研究人员应该了解他们 研究的主题领域。比如说,如果你从事营销工作, 就要了解营销的运作原理,这样才能获得更多见解, 更好地引导分析和流程,来应对可能遇到的问题。 比如,高德纳咨询公司的一位资深分析师, 在一篇精彩的博文中写道: “企业员工比神秘的数据科学家更了解自己的数据,这是关键。 内部员工已经具备建模、 研究和分析经验及能力。 学习 Hadoop 要比了解公司业务更容易。” Hadoop 是一种常见的 大数据处理软件框架。 这强调了领域知识在数据科学中的重要性。 图中的第三个要素是编程, 也就是计算机编程能力。 它并不复杂。 你不需要拥有计算机科学博士学位, 只要懂点 Python 编程就够了。 因为这已经足够支持你对数据集 进行创造性探索和操作, 尤其是在处理大数据中的各种数据时。 能够组合不同格式的数据至关重要, 而这通常需要具备一定的编程能力。 它还有助于培养算法思维或 循序渐进的线性思维,来解决问题。 我们的网站上有很多关于 Python 和如何使用命令行的教程, 可以参考本节课的最后一个视频。 下面我来介绍一下这些要素的两两组合。第一个组合是统计学和领域知识,没有编程。 这就是康威所说的传统研究, 研究人员在他们的专业领域内工作,使用常见工具来处理熟悉的数据格式。 它非常高效,几乎所有现有研究都是这么进行的。 比如,在我的领域中,美国心理学协会特别指示研究人员使用最简单的方法,来充分解决研究问题。 这就是所谓的最小充分分析。 这些传统方法很重要,但不足以处理大数据, 我们稍后会详细讨论。 第二个组合是统计学和编程,没有专业领域知识。 这就是康威所说的机器学习,不要把它与数据挖掘混淆了。 机器学习指的是算法或程序自行更新并进化, 以便执行特定分析任务。 最典型的例子就是邮箱中的垃圾邮件过滤器, 用户会将邮件标记为垃圾邮件或非垃圾邮件, 而程序用于分辨垃圾邮件的公式 会不断汲取新信息,所以使用次数越多, 过滤器的准确率越高。 机器学习有一项风险,就是神秘黑箱。 实际上你并不知道程序是如何运行的。 不过,如果你想要的只是预测, 这种方法会非常有效。 但按照康威的模型, 如果没有领域知识这个重要因素, 就没法构成数据科学。 第三个组合是领域知识和编程,没有统计学。 康威把它标为危险区域, 他认为具有足够的知识才有危险。 这涉及很多问题,但我只讲两点。 首先,康威提到,如果没有学习数学和统计, 那么人们就不太可能同时掌握编程知识和专业领域知识。 所以他说这是一个冷门类别,我也这么认为。 但这个组合也带来了一些很重要的 数据科学贡献,比如字数统计, 我们稍后会讲到。 这些程序很简单,不需要进行复杂的统计。 你只需要计算事件发生的频率, 就可以获得重要见解。 所以这个区域并非一无是处。 不过,就像康威说的那样, 没有学习数学统计学, 就很难同时掌握编程知识和专业领域知识。 当然,最后就是统计学、 领域知识和编程这 3 个因素的组合, 也是数据科学最常见的定义。

数据科学的类型和技能

报纸文章或专业会议对大数据的讨论,很容易让人们认为: 数据科学家不只是拥有领域知识、了解统计学还会编程这么简单, 他们应该是和超人一样,无所不知、无所不能,可以毫不费力地解决一切。事实当然不是这样。与其他领域一样,除了前面提到的 3 种技能外,数据科学还涉及许多其他技能。“分析分析者:对数据科学家及其工作的反思性调查”,这份报告详细论述了这一点。它只有 40 页,由哈兰·哈里斯、肖恩·墨菲和马克·威斯曼合著,在 2013 年由奥莱利出版社出版。 奥莱利和亚马逊提供实体书或免费的电子版。这几位作者调查了大约 250 名数据科学从业者。 他们询问受访者如何定义自己的身份, 如何划分与数据科学相关的技能。然后对每个分类进行了集群分析和交叉分类。调查结果在意料之中:在大数据领域,人与人之间存在高度异质性,不是每个人都一样。
在这里插入图片描述
受访者根据 11 种 可能的职业身份评价了自己, 分别是艺术家、商人、开发人员、 工程师、企业家、黑客、多面手、 领导者、研究人员、科学家和统计学家。 这张表显示了这些身份 根据个人回答的划分方式。 共分为四个基本类别: 数据开发人员,包括开发人员和工程师; 数据研究人员, 包括研究人员、科学家和统计学家; 数据创意师,包括多面手、艺术家和黑客; 数据商务人员,包括领导者、商人和企业家。
在这里插入图片描述然后,受访者根据算法、可视化、产品开发和系统管理等 22 项技能,进行了自我评价。这些技能分为与数据科学相关的五大类:商业、机器学习或大数据、数学或运筹学、编程和统计学。 这里的重点是,每个人掌握的技能都不一样,比如,最左边的商业类别中 包含产品开发和运营,而右边的编程中则包含系统管理和后端编程。不是每个人都必须掌握所有这些技能。事实上,如果研究人员将 自我认定类别与技能交叉, 他们就能大致了解 与每类数据科学从业者相关的技能。 哪怕拥有数据处理技能,在商务人员看来, 自己的主要身份还是商人、领导者或企业家。 而数据创意师这个类别 是技能分布最均匀的一种。比如,看最右边,数据研究人员最看重的技能是统计分析。再强调一遍,不是每个人都一样。每组在每个领域至少都有一些技能,但分布差异很大。这表明,在数据科学领域,乃至大数据领域,个人兴趣和技能组合都有很大的变化空间。 虽然如果能对研究人员提到的 所有这 5 种技能类别都稍微有些了解, 会很有帮助,但多元化才是关键所在。 建议大家下载这份免费报告1。仔细研究作者的发现, 这可以帮助减少从事数据科学工作 和使用大数据时的一些感知障碍和自我限制。

去掉大数据,只看数据科学

如果你认为,大数据需要同时具备数量多、 流转快和多样性这 3 个特征, 才算真正的大数据,那下面这类人 就完全有可能是数据科学家: 拥有领域知识、统计知识和编码技能, 但不接触大数据。 我们来看一下几种可能性。 先来回顾一下数据科学的文氏图。 如图所示,右上是统计, 底部是领域知识,上面是编程, 三者结合起来就是数据科学。 再来看看大数据文氏图, 它包括数量、速度和种类。 再次说明,根据查询对象的不同, 需要同时具备这 3 个特征, 才算真正的大数据。 下面来看看数据科学,每次只说 1 个特征。 我们讨论统计、领域知识和编程, 但每次只从 1 个特征展开讨论。

  1. 第一个例子是, 在速度或种类方面表现不明显的大量数据。 这意味着, 它可能是格式一致的大型静态数据集。 这类数据通常也是结构化的, 所以不会有自由文本。
    一个很好的例子是基因数据, 图中所示是来自《自然综述》的数据。 基因数据很庞大,但它的结构很好理解。 也就是说,你需要处理的数据量很大, 但数据的格式很一致。 另一个很好的例子, 是数据挖掘或预测分析中的许多场景。 在预测分析中, 你可能需要预测单个结果, 比如一个人是否会点击广告或网页。 这种情况下,你可能会得到这样一个数据集: 包含数千个甚至数十亿个变量, 但所有数据格式一致。 数据的规模决定了许多通用方法都不适用, 所以,数据科学家的编码技能, 可能与统计知识和领域知识一样重要。
  2. 下面来看速度,不涉及数量或种类。这主要指的是,具有一致结构的流数据。这里说的流数据,指的是数据持续生成,而且你通常不会保留这些数据。
    你只是为它打开一个小小的入口。 来看一个有趣的例子: 美国地质勘探局的地震探测系统。 这是美国国家地震监测台网系统, 用于检测是否有地震正在发生或即将发生。 你没有必要保留所有数据, 因为你要做的只是触发响应, 以便在地震即将发生或刚刚开始时, 让人们可以有足够的时间来应对。 这类数据生成速度极快,但又没必要保留, 所以它的数量相对较少,结构非常一致, 种类也不多。 我们也把它叫做“数据流挖掘”, 字符串和流传感器数据的实时分类, 就是一个例子。
  3. 最后一个特征, 我们从数据种类方面来说说数据科学。 这类数据格式各异, 但速度和数量特征不明显。 它可能是一个非常复杂、 但规模较小的静态或相对静态数据集。 相关示例可能包括人脸识别和个人照片采集, 你不需要收集大量照片,但照片的种类要多。 可视化数据几乎都有很多种类, 而且可能是静态的,因为不需要持续添加。 复杂数据集的数据可视化,也是一个例子。 我最喜欢的一个例子来自这个网站, 图中显示了分割 3×4 网格的 892 种不同方法。 你不会想要手动完成这项工作, 但通过编程来创建这些图表的工作量 就还可以接受。 以上这些数据科学的例子, 分别代表了统计、领域知识和编程, 每个例子中的数据只涉及 1 个特征。
  4. 你也可以同时考量 2 个特征, 比如,针对具备数量和速度特征、但种类不多的数据,如何运用数据科学。比如说,大量数据以极快的速度生成,但格式一致。
    比如股票市场数据,或者还有个有趣的例子, 是关于喷气发动机的。 这张图中有一项惊人的统计。 其中有一点数学计算, 但我觉得不需要乘这么多项。 数据显示, 一台喷气发动机上的传感器 每小时可生成 20TB 信息。 这个信息量是非常大的。 每台发动机每小时生成 20TB 数据, 乘发动机数量 2 台,乘长途飞行时间 6 小时, 乘 28,000 次飞行, 不过我不认为这些都是长途飞行, 再乘一年 365 天。 如果所有运算都正确,得出的结果是: 喷气发动机每年会生成超过 25 亿 TB 数据。 那么问题来了,生成的数据非常庞大, 而且全部需要保留,因为喷气发动机的故障影响极大, 你需要能够在全部数据中查找故障模式。
  5. 还有一种可能性是, 将数据科学应用于流转快的数据。 这类数据生成速度很快,种类很多, 但数量不大。 这种也属于流数据,你不必保留所有数据内容。举个例子:监控视频。 道德问题我们放在下一课中讨论,但监控视频真的非常多。看一下第二段的结尾:“据国际数据集团不久前的 《 2020 年的数字宇宙》报告,全球大数据,即数字宇宙中有分析价值的部分,在 2012 年有一半是监控视频,这个比例在 2015 年会上升到 65%。” 这是因为监控视频的清晰度不断提高, 完全不同于你平常看到的低分辨率内容。 如果要保留所有数据, 这个数量是非常庞大的。 如果不保存数据,但采用流式传输的方式, 它的速度会非常快,因为信息生成得非常快。 每秒可能有二三十帧,而且种类很多, 因为它是可视化信息。 但如果你只想看一下是否有人经过、 谁携带了武器,或者是否发生了特定事件, 你可以使用流,只在某件事发生时触发。
  6. 最后,我们抛开速度, 从数量和种类方面谈谈数据科学。 这类数据可以是使用多种格式、 或包含可视数据的大型历史数据集。 比如说谷歌图书。 我们之前说过,他们扫描了数千万册图书, 并进行了数字化处理, 要处理的信息非常复杂。 这是我最喜欢的一本书:《忧郁的解剖》, 实际上我有实体书,但我喜欢在网上看。 类似的例子还有推特档案, 其中保存了用户曾经发布的每一条推文。 它的信息量非常巨大,因为文本很复杂, 但它的速度不快,因为不会持续更新。 这些例子告诉我们,大数据和数据科学之间 有着紧密的联系,但哪怕大数据的 3 个主要元素不同时具备,数据科学的技能, 也就是统计知识、领域知识和编程技能, 也依然适用。 在下一个视频中,我们要反过来进行探讨, 如何在不需要完整数据科学技能 组合的情况下,处理大数据。

去掉数据科学,只看大数据

上一个视频中, 我们抛开大数据,讨论了数据科学。 在这个视频中,我们将进行补充讨论。 我们来看一些场景: 在不需要完整数据科学技能组合的情况下, 处理大数据。 再次提醒,大数据通常涉及不同寻常的数据数量、速度和种类。 数据科学也有这样一张图, 包括统计技能、领域知识和编码能力。 这 3 个方面组合在一起构成数据科学。 现在,请大家想一想, 可以只用两项数据科学技能处理大数据吗?

  1. 只用统计和编码可以吗? 答案当然是肯定的。 这两者的结合构成了机器学习。
    机器学习是数据科学中一个非常重要的领域, 指的是计算机程序 学习如何适应生成的新信息。 举两个最常见的例子, 一个是垃圾邮件过滤器, 计算机程序会根据你的个人反应, 以及使用相同电子邮件程序的 数百万其他用户的反应, 来判断某种电子邮件是否为垃圾邮件。 另一个是人脸识别和照片收集, 计算机程序会判断每张脸属于谁。 这里有篇《自然》杂志的文章, 概述了人工智能和机器学习。 我们向下滚动一点, 可以发现它专门讨论了人脸识别问题, 以及计算机如何学习识别人脸。 有趣的是,人脸识别对人来说非常容易, 对计算机来说却难得多。 所以说,机器学习是一个很好的大数据示例, 因为它可以具有数量、速度和种类特征, 但又无需领域知识, 因为计算机不需要什么知识就能工作, 有没有都不影响。
  2. 另一种可能的情况是数据区域,它由德鲁·康威命名,是编码和领域知识的组合,不包括统计
    虽然它是“危险”区域, 但其中有一些不错的数据科学示例,不涉及统计知识。最常见的例子是字数统计和自然语言处理。这里最常用的工具是自然语言处理工具包。这是一个在 Python 编程语言中使用的包。用户可以用它完成很多工作, 比如字数统计。 最著名的案例发生在数十年前, 人们使用字数统计, 来确定美国历史政治著作 《联邦党人文集》的作者。 此外,人们还用它来比较 各嘻哈歌手的词汇量等。 所以,通过简单计算自然语言中 字词出现的频率, 我们就可以做很多事情, 不需要具备任何统计知识, 因为在这里不会用到统计。 以上是数据科学技能的两种组合, 我们讨论的是两两组合,不涉及大数据。
  3. 下面介绍第三种组合: 统计和领域知识的组合。 它是传统研究。 我个人很重视传统研究, 但遗憾的是,我是一名实验社会心理学家, 无法处理大数据。 没有编码技能, 你就没法处理数量多、 流转快或种类多的数据, 也就是大数据。 传统研究有很多出色成果, 但大数据并不是其中之一。 还要补充一点,据我所知, 除非你拥有至少两种技能, 否则根本无法处理大数据。 如果只有统计知识, 或只有编码技能或领域知识, 你是无法处理大数据的。 在这种情况下, 你必须要与拥有其他两项技能的人合作。 其实,合作是数据科学中的惯常做法, 而不是特例。 因为它需要的技能范围很广, 一般来说,没有人能具备所有技能, 他们必须得合作。 实际上,合作是很棒的一件事情, 因为大部分有意思的成果 都是通过合作实现的。 这也是数据科学大力支持的。 所以,在看待数据科学 与大数据之间的关系时, 着眼点并不完全相同。 你可以对不完全版本的大数据运用数据科学, 但如果不具备数据科学的 3 大技能, 处理大数据就要难得多。 在后面的视频中, 我们将深入讨论大数据处理的细节, 但首先需要探讨一下道德和大数据。 这就是我们下一课的学习内容。

  1. (Analyzing
    the analyzers: An Introspective Survey of Data Scientists and Their Work) ↩︎

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值