大数据简介
大数据的定义
大数据是指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特点
大数据的特点可以用“5V”来描述,
- 大量 Volume :
- 采集、存储和计算的数据量都非常大。
- 高速 Velocity(低延迟):
- 在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽 可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。
- 多样 Variety:
- 数据形式和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音 频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
- 真实 Veracity:
- 确保数据的真实性,才能保证数据分析的正确性
- 低价值 Value:
- 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。互联网发展催生了大量数据,信 息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时 代最需要解决的问题,也是一个有难度的课题。
大数据的应用场景
随着大数据的发展,大数据技术已经广泛应用在众多行业,比如仓储物流、电商零售、汽车、电信、生物医学、人工智能、智慧城市等等领域,包括在疫情防控战中,大数据技术也发挥了重要的作用。
-
仓储物流
- 大数据技术驱动了仓储物流领域的智能化发展,以苏宁为例,苏宁物流可在全国的各级仓库间实现 智能分仓、就近备货和预测式调拨,实现”客户需要的商品就在离客户最近的配送中心“。
-
电商零售
- 啤酒+尿不湿
-
个性化推荐 (各种角度进行推荐)
-
” 双11购物节 “ 实时销售额大屏
-
汽车
- 利用了大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活
-
电信
- 移动联通根据用户年龄、职业、消费情况,分析统计哪种套餐适合哪类人群,对市场人群精准定制。
-
生物医学
- 大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读 DNA,了解更多的生命奥秘。比如影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样 本,制定早期肺癌高危人群预警指标
-
人工智能
-
智慧城市
- 大数据有效支撑智慧城市发展,成为城市的”数据大脑“。比如,在智慧城市建设上,杭州始终走在全国前列。如覆盖面广的移动支付、新颖的在线医疗模式、创新的物流运输模式,都受到较大关 注。2016年,杭州被《中国新型智慧城市》白皮书评为“中国最智慧的城市”。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将 产生重大而深远的影响。
hadoop简介
hadoop是一个适合大数据的分布式存储和计算平台。
狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架
hadoop的特点
- 扩容能力
- hadoop是在计算机集群内分配数据并完成计算任务,集群可以方便的扩展到数以千计个节点。
- 低成本
- hadoop是通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
- 高效率
- hadoop可以在节点之间动态并行的移动数据,使得速度非常快
- 可靠性
- 能自动维护数据的多份复制,并且在任务失败后能自动的重新部署计算任务。
hadoop的优缺点
优点
- Hadoop具有存储和处理数据能力的高可靠性。
- Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以 千计的节点中,具有高扩展性。
- Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具 有高效性。
- Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性
特点也可以是优点。 可靠、可扩展、高容错等(基本和写代码几个特性一致)
缺点
- hadoop不适用于低延迟数据访问。
- Hadoop不能高效存储大量小文件。
- Hadoop不支持多用户写入并任意修改文件。
总结: 高延迟、小文件效率低、不支持任意修改
hadoop的重要组成
Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块
HDFS
(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统
- 数据切割后,分布式存储
NameNode(nn):存储文件的元数据,比如:文件名,文件目录结构,文件属性(生成时间,副本数量,文件权限),以及每个文件的块列表和块所在的DataNode等。
SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照。(fsimages 和 edits)
DataNode(nn): 在本地文件系统存储文件块数据,以及块数据的校验。
MapReduce
hadoop mapreduce一个分布式的离线并行计算框架。
采用的是分而治之的思想: 拆解任务分散处理(map),汇总结果(reduce)
MapReduce计算 = Map阶段 + Reduce阶段
Map阶段就是“分”的阶段,并行处理输入数据;
Reduce阶段就是“合”的阶段,
对Map阶段结果进行汇总
yarn
作业调度与集群资源管理的框架
ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控 NodeManager、资源分配与调度;
NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自 ApplicationMaster的命令;
ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容 错。
Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任 务运行相关的信息。
ResourceManager是老大,NodeManager是小弟,ApplicationMaster是计算任务专员
总结与思考
总结:
第一部分主要从大数据的定义到特点到实际的生活中的应用场景,感兴趣的可以多多找找具体行业的实际应用场景,以及在行业中是如何真正落地的使用大数据技术的。
第二部分引出大数据技术hadoop,以及其优缺点,感兴趣的可以查找相关资料,还有除hadoop外还有哪些大数据技术,及其优缺点,市场使用情况等。
第三部分简单介绍hadoop的重要组成,老生常谈的"三件套"。
其它阅读