BAT云计算大数据处理技术应用是什么样?Hadoop大数据处理告诉你

本篇以大数据处理系统的三大关键要素一“存储” 、“计算” 与“容错”为起点,深入浅出地介绍了如何使用Hadoop这一高性能分布式技术完成大数据处理任务。本篇不仅包含了使用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop使用技巧和运行效率提供了颇具价值的参考。

本篇共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce 计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce 的数据挖掘实践及面向未来的大数据处理技术。最后附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。

第1章为大数据处理概论,对大数据处理给出了一个多维度定义,梳理了大数据处理平台的基础架构,介绍了完成大数据处理任务要解决的3个关键问题一存储、计算和容错,并归纳性地总结了Hadoop技术的关键性思路。

第2章以Hadoop技术的来源,Google的三大关键技术为引子,介绍了Hadoop整体架构、基本原理和发展历程,在此基础上展示了一个使用Hadoop技术完成大数据处理工作的简明框架,同时简要介绍了目前Hadoop技术在国内知名企业中的应用情况。

BAT云计算大数据处理技术应用是什么样?Hadoop大数据处理告诉你

 

第3章深入剖析了MapReduce计算模式,包括原理和工作机制,介绍了实用性的MapReduce应用开发方法,并结合简单的实例讲解了几类常用的MapReduce设计模式,同时以3个经典算法为例讲解了MapReduce算法的设计精髓,最后给出了一些重要的MapReduce程序优化的方法。已经为大家精心准备了大数据的系统学习资料,从Linux-Hadoop-spark-......,需要的小伙伴可以点击

第4章全面讲解了HDFS分布式文件存储系统的工作原理和机制,说明了使用命令行和代码对HDFS文件进行操作的方法,介绍了提高文件访问效率的若干重要优化方法,并梳理了目前解决HDFS中小文件存储和高可用性问题的解决方法。

BAT云计算大数据处理技术应用是什么样?Hadoop大数据处理告诉你

 

第5章介绍了可用于快速数据检索的HBase技术,包括核心原理与架构,以及管理HBase中数据的方法,同时从传统关系型数据库使用者的角度讲解了如何在新型列存储数据库上进行设计与开发的方法,并梳理了提高HBase性能的重要方法。

第6章介绍了Hadoop中的高层数据分析工具Hive 和Pig,结合具体实例讲解了这两个工具的使用方法,并从实际应用的角度对具有相似性的两者进行了差异对比,给出了选择建议。第7章阐述了复杂数据应用环境下的数据整合问题,详细介绍了适用于Hadoop与外部SQL数据整合的工具Sqoop, 以及Hadoop 平台内部的数据整合工具HCatalog。

第8章介绍了集群管理者所关注的管理与维护体系和相关工具,从配置管理、集群监控、故障处理与安全性等角度梳理了目前常用的Hadoop集群管理工具,并进行了总结与对比。

BAT云计算大数据处理技术应用是什么样?Hadoop大数据处理告诉你

 

第9章重点介绍基于MapReduce的数据挖掘技术,包括基本原理和方法、若干经典算法的实例,以及目前已有的基于MapReduce的数据挖掘工具。

BAT云计算大数据处理技术应用是什么样?Hadoop大数据处理告诉你

 

最后,在第10章介绍了将对未来大数据处理技术产生深远影响的一-些新型大数据处理技术,包括Hadoop的下一代计算框架YARN、大数据的实时交互式分析工具Dremel和Impala、大数据的图运算模型和工具Pregel和Hama。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值