大数据处理技术导论task01

本文介绍了大数据的四大特点——数据量大、类型繁多、处理速度快和价值密度低,并提及了真实性这一额外特征。重点讲述了Hadoop作为分布式处理框架的核心组件HDFS和MapReduce,以及Hadoop的可靠性、高效性和高容错性等优势。
摘要由CSDN通过智能技术生成

第一章:大数据概述

  • 大数据的四大特点(4V):数据量大、数据类型繁多、处理速度快和价值密度低,除此之外,还有真实性特点(5V)。
  • 大数据处理的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理技术、大数据分析及挖掘技术、大数据展现与应用技术。

第二章:大数据处理架构Hadoop

  • Hadoop是一个分布式处理的软件框架,核心部件包括分布式文件系统(HDFS)和MapReduce。(在某种程度上,Hadoop实现了将多台计算机组织成了一台计算机,去做同一件事情。)
  • Hadoop主要特性有:可靠性,高效性,低成本,高容错性.
  • Hadoop是可靠的:HDFS对上传的数据进行备份,每个备份叫做一个副本,默认情况下,每个数据块的副本数量是3,以此避免某个服务器宕机,数据丢失的现象
  • Hadoop是高效的:Hadoop以并行的方式工作,能够在节点之间动态地移动数据,保证各个节点的动态平衡,提高处理速度。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值