大数据简介

大数据简介

大数据的定义

大数据是指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的特点

大数据的特点可以用“5V”来描述,

  • 大量 Volume :
    • 采集、存储和计算的数据量都非常大。
  • 高速 Velocity(低延迟):
    • 在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽 可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。
  • 多样 Variety:
    • 数据形式和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音 频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
  • 真实 Veracity:
    • 确保数据的真实性,才能保证数据分析的正确性
  • 低价值 Value:
    • 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。互联网发展催生了大量数据,信 息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时 代最需要解决的问题,也是一个有难度的课题。

大数据的应用场景

随着大数据的发展,大数据技术已经广泛应用在众多行业,比如仓储物流、电商零售、汽车、电信、生物医学、人工智能、智慧城市等等领域,包括在疫情防控战中,大数据技术也发挥了重要的作用。

  • 仓储物流

    • 大数据技术驱动了仓储物流领域的智能化发展,以苏宁为例,苏宁物流可在全国的各级仓库间实现 智能分仓、就近备货和预测式调拨,实现”客户需要的商品就在离客户最近的配送中心“。
  • 电商零售

    • 啤酒+尿不湿
  • 个性化推荐 (各种角度进行推荐)

  • ” 双11购物节 “ 实时销售额大屏

  • 汽车

    • 利用了大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活
  • 电信

    • 移动联通根据用户年龄、职业、消费情况,分析统计哪种套餐适合哪类人群,对市场人群精准定制。
  • 生物医学

    • 大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读 DNA,了解更多的生命奥秘。比如影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样 本,制定早期肺癌高危人群预警指标
  • 人工智能

  • 智慧城市

    • 大数据有效支撑智慧城市发展,成为城市的”数据大脑“。比如,在智慧城市建设上,杭州始终走在全国前列。如覆盖面广的移动支付、新颖的在线医疗模式、创新的物流运输模式,都受到较大关 注。2016年,杭州被《中国新型智慧城市》白皮书评为“中国最智慧的城市”。

大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将 产生重大而深远的影响。

hadoop简介

hadoop是一个适合大数据的分布式存储和计算平台。

狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架

hadoop的特点

  • 扩容能力
    • hadoop是在计算机集群内分配数据并完成计算任务,集群可以方便的扩展到数以千计个节点。
  • 低成本
    • hadoop是通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
  • 高效率
    • hadoop可以在节点之间动态并行的移动数据,使得速度非常快
  • 可靠性
    • 能自动维护数据的多份复制,并且在任务失败后能自动的重新部署计算任务。

hadoop的优缺点

优点

  • Hadoop具有存储和处理数据能力的高可靠性。
  • Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以 千计的节点中,具有高扩展性。
  • Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具 有高效性。
  • Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性

特点也可以是优点。 可靠、可扩展、高容错等(基本和写代码几个特性一致)

缺点

  • hadoop不适用于低延迟数据访问。
  • Hadoop不能高效存储大量小文件。
  • Hadoop不支持多用户写入并任意修改文件。

总结: 高延迟、小文件效率低、不支持任意修改

hadoop的重要组成

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块

HDFS

(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统

  • 数据切割后,分布式存储

image-20210630154656987

NameNode(nn):存储文件的元数据,比如:文件名,文件目录结构,文件属性(生成时间,副本数量,文件权限),以及每个文件的块列表和块所在的DataNode等。

SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照。(fsimages 和 edits)

DataNode(nn): 在本地文件系统存储文件块数据,以及块数据的校验。

MapReduce

hadoop mapreduce一个分布式的离线并行计算框架。

采用的是分而治之的思想: 拆解任务分散处理(map),汇总结果(reduce)

MapReduce计算 = Map阶段 + Reduce阶段

Map阶段就是“分”的阶段,并行处理输入数据;

Reduce阶段就是“合”的阶段,

对Map阶段结果进行汇总

image-20210630155456238

yarn

作业调度与集群资源管理的框架

image-20210630155539697

ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控 NodeManager、资源分配与调度;

NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自 ApplicationMaster的命令;

ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容 错。

Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任 务运行相关的信息。

ResourceManager是老大,NodeManager是小弟,ApplicationMaster是计算任务专员

总结与思考

总结:

第一部分主要从大数据的定义到特点到实际的生活中的应用场景,感兴趣的可以多多找找具体行业的实际应用场景,以及在行业中是如何真正落地的使用大数据技术的。

第二部分引出大数据技术hadoop,以及其优缺点,感兴趣的可以查找相关资料,还有除hadoop外还有哪些大数据技术,及其优缺点,市场使用情况等。

第三部分简单介绍hadoop的重要组成,老生常谈的"三件套"。

其它阅读

大数据 物流的应用是怎样的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值