大数据,大智慧,大未来

前 言: 相信很多小伙伴都听说过推荐算法、“未来新石油”、大数据杀熟、信息茧房等词条, 大数据究竟是什么, 现在就来揭开它神秘的面纱

01

一. 何为大数据

\quad

1.1 背景

都说大数据大有裨益, 它是怎么来的呢?, 为什么以前没有,现在才有?, 它是否真能反应世界的运行规律?

数据不仅仅是数字(1,2,3)这种形式
在广义上数据包括(文字、字母、数字符号的组合、图形、图像、视频、音频等)
数据是信息的载体,而信息是数据的表达

从文明之初的“结绳记事”
29
到文字发明后的“文以载道”
30

再到近现代科学的“数据建模”
31
数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,随着计算机等信息技术的进步,为数据处理提供了自动的方法,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源

大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国科学家约翰·马西在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big Data(大数据)”来描述这一挑战,在计算领域引发思考。

2007年,数据库领域的先驱人物吉姆·格雷(Jim Gray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。

2012年,牛津大学教授维克托·迈尔-舍恩伯格在其畅销著作《大数据时代》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的全体数据”、“近似求解”和“只看关联不问因果的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。

大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。在拥有充足的计算能力和高效的数据分析方法的前提下,将有可能理解和发现现实复杂系统的运行行为、状态和规律。

大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。

1.2 大数据的特点(5v)

Volume(大量)

我国已经超过10亿网络用户, 我们手机里都有各种APP, 每次搜索,点击,浏览,收藏和评论等, 都会产生数据,我们每个人都是大数据的生产者, 同时也是大数据的使用者

下面用数据存储单位感受一下大数据之"大"
bit, Byte, KB, MB, GB, TB, PB, EB, ZB, YB, BB, NB, DB。
其中 1Byte=8bit, 1KB=1024Byte, 1MB=1024KB…后面的换算都是1024

假设手机播放MP3的编码速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB歌曲可以连续播放2000年。

大企业数据量已达EB

\quad
Velocity(高速)

数据本身具有一定的时效性,
例如,购物平台的推荐系统,在我们搜索某个商品的时候,实时推送营销效果最好的产品

Variety(多样)

数据种类多样包括(文字、字母、数字符号的组合、图形、图像、视频、音频等)

Value(低价值密度)

虽然数据量极大,但是真正有价值的数据很少,就像冶金

Veracity(真实性)

大数据不是选取部分数据进行抽样分析,而是分析处理全部的数据,这样得到的结果更为可靠
比如, 昨天在北京消费了1万, 今天在上海消费了1元,那么大概率这笔消费是异常的,有了大数据就可以检测这种异常情况,从而规避金融风险

\quad

1.3 应用场景

按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。
第一层,描述性分析应用
第二层,预测性分析应用
第三层,指导性分析应用

\quad
在疫情防控中的应用(第一层)

描述性分析应用, 是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程

2020 年开年之际,新型冠状病毒带来的肺炎疫情汹涌而至。疫情突发性高、传染性强、防控工作任务艰巨,在这场疫情阻击战中,大数据与医疗领域深度融合,让疫情防控的组织和执行更加高效,成为战“疫”的强有力武器
22
在迅速锁定“涉疫”人员流动轨迹方面, 通过互联网公司、交通部门等单位的信息,大数据可以分析出人员流动轨迹。具体来说,利用数据分析、数据挖掘等技术,一方面可以通过手机信令等包含 地理位置和时间戳信息的数据绘制病患的行动轨迹;另一方面,根据病患确诊日期前一段时间的行动轨迹和同行时间较长的伴随人员,基于大数据分析可以推断出病患密切接触者。综合分析确诊病患、疑似病患和相关接触者的行动轨迹
\quad
\quad
在预测方面的应用(第二层)

预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测

33
微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%

\quad
在智能驾驶方面的应用(第三层)

指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化

32
无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。

当然, 大数据的应用领域远不止这些, 随着技术的成熟进步, 大数据与其他新兴技术强强联合, 一股深刻改变着传统的生活、工作和思维模式的浪潮已经翻涌而至, 但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点

\quad

1.4 发展趋势

趋势一:数据的资源化
23
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。这也是大数据被称为"未来的新石油"的重要原因, 所以企业必须要提前制定大数据营销战略计划,抢占市场先机。
\quad
\quad
趋势二:与云计算的深度结合
27
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
\quad
\quad
趋势三:科学理论的突破
28
随着大数据的快速发展,就像计算机和互联网一样,大数据是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
\quad
\quad
趋势四:数据科学和数据联盟的成立
35
数据科学已成为一门专门的学科,被越来越多的人所认知。各大高校已设立专门的数据科学类专业,催生了越来越多与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
\quad
\quad
趋势五:数据泄露泛滥
36
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补
\quad
\quad
趋势六:数据管理成为核心竞争力
37
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
\quad
\quad
趋势七:数据质量是BI(商业智能)成功的关键
38
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
\quad
\quad
趋势八:数据生态系统复合化程度加强
39
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。

\quad
\quad

二.大数据相关岗位

大数据开发工程师
开发,建设,测试和维护架构;负责公司大数据平台的开发和维护,
负责大数据平台持续集成相关工具平台的架构设计与产品开发等

数据分析师
收集,处理和执行统计数据分析;运用工具,提取、分析、呈现数据,实现数据的商业意义,
需要业务理解和工具应用能力

数据挖掘工程师
数据建模、机器学习和算法实现;商业智能,用户体验分析,预测流失用户等;
需要过硬的数学和统计学功底以外,对算法的代码实现也有很高的要求

数据架构师
需求分析,平台选择,技术架构设计,应用设计和开发,测试和部署;高级算法设计与优化;
数据相关系统设计与优化,需要平台级开发和架构设计能力

数据科学家
数据挖掘架构、模型标准、数据报告、数据分析方法;
利用算法和模型提高数据处理效率、挖掘数据价值、实现从数据到知识的转换

大数据运维工程师
负责数据平台的集群管理,机器优化,集群监控等
参与数据架构选型,为核心服务提供稳定保障,对现有集群的优化和性能调优,满足不断增长的业务需求

大数据算法工程师
Hadoop数据分析平台建设、开发、测试、部署和优化,基于Hadoop的存储平台架构设计与性能优化,设计和开发海量数据的管理系统;
基于现有数据统计平台,开发数据统计报表;结合当前大数据平台技术,设计和实现数据收集模型、数据分析处理模型和数据汇总展现模型;实现各运营组织要求的相关数据的统计报表

数据治理工程师
负责全司数据治理工作的指导、监督和检查及数据资产平台系统建设;
负责数据架构、数据模型、数据质量、元数据、主数据和数据标准等相关内容的管理;
负责数据监管报送;负责数据管控平台的升级、维护、培训、推广和使用

根据一,二线等城市, 不同公司以及自身的技术水平和面试的具体情况, 同种岗位的薪资也会有所不同

\quad
\quad

三.大数据处理流程

大数据处理流程: 采集 – 预处理 – 存储 – 处理 – 挖掘 – 分析与可视化
数据处理流程与从果园到餐桌有异曲同工之妙

数据采集(相当于摘取水果)
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口
采集的渠道

数据预处理(对水果进行清洗)
数据预处理是指对现有数据进行的一些处理

数据存储(水果入库)
数据存储对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息

数据处理(分大小果)
数据处理是指对数据进行分析和加工的计算过程

数据挖掘(去果皮果核,取可食用的果肉)
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程

数据分析与可视化(切水果,装盘)
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用

\quad
\quad

四.大数据框架

大数据的五个框架: Hadoop、Storm、Samza、Spark和Flink

Hadoop框架

Hadoop是应用最广泛的框架, 我们知道大数据主要解决海量数据的采集, 存储和分析计算问题
而Hadoop就占了存储和分析计算两巨头

Hadoop之所以能成为应用最广泛的框架,离不开它的四个优势(4高)
(1)高可靠性: Hadoop底层维护多个数据副本, 所以即使Hadoop某个计算元素或存储出现故障, 也不会导致数据丢失
40
\quad
(2)高扩展性: 在集群间分配任务数据, 可方便的扩展 数以千计的节点
比如: 在双11服务器不够的时候,直接增加,不用停止前面的服务器
41

\quad
(3)高效性: Hadoop是并行工作的, 可以加快处理速度, 正所谓众人拾材火焰高
42

\quad
(4)高容错性: 能够将失败任务重新分配, 失败的任务自动迁移到另一台服务器上计算,不影响计算结果
43

\quad
\quad

五.大数据与传统的数据技术,主要有什么差别?

1、数据规模大: 传统数据技术主要是利用现有存在关系性数据库中的数据,对这些数据进行分析、处理,找到一些关联,并利用数据关联性创造价值。这些数据的规模相对较小,可以利用数据库的分析工具处理。而大数据的数据量非常大,不可能利用数据库分析工具分析。

2、非结构化数据:传统数据主要在关系型数据库中分析,而大数据可以处理图像、声音、文件等非结构化数据。

3、处理方式不同:因为数据规模大、非结构化数据这两方面因素,导致大数据在分析时不能取全部数据做分析。大数据分析时如何选取数据?这就需要根据一些标签来抽取数据。
所以大数据处理过程中,比传统数据增加了一个过程Stream。就是在写入数据的时候,在数据上打一个标签,之后在利用大数据的时候,根据标签抽取数据。
这个过程就类似于寻找图书:如果你在你个人书柜里,寻找一本书是很容易的,所以你买了书,可以直接放到书柜上,不用做任何处理;而如果图书馆买了书,如果不做任何处理的话,你是很难找到一本书的,所以图书馆在新书入库的时候,首先会对每本书打上标签,而这个打标签的过程,就是类似于Stream的工作。

\quad
\quad

六.大数据的挑战与危机

5.1 大数据治理体系尚待构建
首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。

其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础

第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战

2021年6月3日,商丘市睢阳区人民法院公开一份刑事判决书,被告人逯某通过其开发的软件爬取淘宝客户的数字ID、淘宝昵称、手机号码等淘宝客户信息共计11.81亿条,将其中的淘宝客户手机号码通过微信文件的形式发送给被告人黎某用于商业营销,共获利34万元。

\quad
5.2 核心技术薄弱
基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。

近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。

在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。

\quad
5.3 融合应用有待深化
我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。

当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;

大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。

\quad
5.4 大数据杀熟
大数据杀熟,企业通过大数据分析掌握用户的消费习惯和购买偏好,同样的商品或服务,老客户看到的价格反而比新客户要贵出许多

链接: 怎样避免大数据杀熟

\quad
5.5 信息茧房
信息茧房是指人们关注的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象, 当我们倾向于某一类信息时,大数据会为我们推送,越来越多这类的信息,导致我们接收到的信息比较片面

链接: 如何对抗算法,避免信息茧房

\quad
\quad
参考材料来源:
尚硅谷大数据hadoop教程
百度百科
十三届全国人大常委会专题讲座第十四讲
纪录片《大数据时代》
知乎: https://zhuanlan.zhihu.com/p/433469244
https://zhuanlan.zhihu.com/p/118060390
CSDN: https://blog.csdn.net/duozhishidai/article/details/86514953

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值