《Hadoop实战》（陆嘉恒著）读书笔记

最新推荐文章于 2024-10-04 18:47:42 发布

Honkee

最新推荐文章于 2024-10-04 18:47:42 发布

阅读量2.4k

点赞数

分类专栏：并行计算文章标签： hadoop 分布式应用大数据 mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Honkee_/article/details/38963667

版权

并行计算专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近大概地读了《Hadoop实战》，算是了解了Hadoop的皮毛吧，在此总结一下。

Hadoop安装

关于Hadoop安装我觉得这本书讲得挺详细的。

Hadoop的三种运行方式

本地模式 ---- 设置简单便于调试

伪分布模式

完全分布模式

Hadoop应用

大规模的数据处理分为三个阶段

数据收集

数据准备

数据表示

MapReduce模型

MapReduce应用

日志分析

海量数据排序

查找模式

执行MapReduce角色

JobTracker

TaskTracker

Job分为两阶段

<k1,v1> map <k2,v2> reduce <k3,v3>

MapReduce优化

combine函是用于在本地合并数据的函数，在有些情况下，map函数产生的中间数据会有很多重复的数据，所以MapReduce框架运行用户写的一个combine函数，用于本地合并，这会大大减少网络I/O操作的消耗。

Hadoop I/O

序列化的目的

进程通信

数据持续存储

SequenceFile类与 MapFile类

HDFS

主要特点：处理超大文件、流式的访问数据、运行于廉价的商用机器集群不适合低延迟数据访问，无法高效存储大量小文件，不支持多用户写入与任意修改文件。

体系： 1个NameNode + n个DataNode

基本操作及其接口

命令行

JAVA API

Hadoop的管理

数据备份

节点管理

系统升级

Hive （数据抽取、转换、加载的工具）

Hadoop的重要子项目，它利用MapReduce编程技术，实现了部分SQL语句，提供了类SQL的编程接口

Hive的网络接口

通过Hive的网络接口可以更方便更直观的操作

Hive语法简介

HBase （基于列的映射数据库）

HBase是Apache Hadoop的数据库，能够对大型的数据提供随机、实时的读写访问

HBase客户端与HBase集群交互方法

利用HBase的MapReduce将map后<key,value> 放到数据库而不是普通文件，reduce从数据库取数据而不是文件。

Mahout

它是Apache Luceue（著名的开源搜索引擎）的子项目

主要目标是建立可伸缩的机器学习算法

包含聚类、分类、推荐引擎、频繁项集的挖掘

数据以向量的形式传播

算法应用

使用seqdirectory命令将待处理文件转化为序列文件

使用seq2sparse将序列文件转化为向量文件

使用kmean命令

建立一个推荐引擎

taste是Apache Mahout提供的一个协同过滤算法的高效实现

Pig

提供了一个支持大数据分析的平台

Pig Latin 语言与传统的关系数据库中的数据库操作语言相似，但其更侧重于数据的查询与分析

Zookeeper（协调平衡工具）

它是一个为分布式应用所设计的开源协调服务

目的是为了减轻分布式应用程序所承担的协调任务

主要用来控制集群中的数据，如管理Hadoop集群中的NameNode，以及HBase中的Master Election，Server之间的同步状态等

Avro（序列化系统）

它作为一个数据序列化的系统，为数据密集型动态应用程序提供了数据存储和交换的平台，他的最大特点就是模式和数据在一起。

提供以下一些特征和功能

丰富的数据结构类型

快速可压缩的二进制数据形式

存储持久数据的文件容器

远程过程调用

简单的动态语言结合功能

Chukwa（处理日志）

Chukwa作为Hadoop的子项目，技能帮助Hadoop处理其日志，也能利用MapReduce对日志进行分析处理。在Chukwa的帮助下，Hadoop用户能够清晰了解系统运行的状态，分析作业运行的状态及HDFS的文件存储状态，从而让我们对整个分布式系统状态有形象直观的了解。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Honkee CSDN认证博客专家 CSDN认证企业博客

码龄13年

46: 原创

25万+: 周排名

67万+: 总排名

14万+: 访问

: 等级

1594: 积分

23: 粉丝

17: 获赞

19: 评论

65: 收藏

私信

关注

热门文章

分类专栏

数据结构 8篇
C++语言 19篇
网络编程 10篇
机器学习 4篇
杂谈 2篇
并行计算 2篇
计算机 20篇
matlab 1篇
opencv 1篇
linux 3篇
js 1篇

最新评论

修改grub默认启动顺序
wolf1949: 看清楚，这写的是修改启动顺序
修改grub默认启动顺序
cece_slam: 都能进ubuntu终端了还会来这里提问grub的事情？我们开机直接grub，连终端都进不去
虚表指针的初始化时期
hll174 回复姜团长: 你的回复是正确的，lz的有点偏差
虚表指针的初始化时期
hll174: 怎么评论不见了
虚表指针的初始化时期
hll174: “在调用A的构造函数的时候，会将vptr指向A的虚表地址，调用B的构造函数的时候，再重新将vptr指向B的虚表地址” 你的实验数据在调用B的时候，先会调用A的构造函数，在A中打印的是A类自己的虚函数表的地址；而在执行B的构造函数的时候，打印的是B的虚函数表地址；两者本来就不一样，因为你打印的就是两个虚表地址，实际是两个虚表的虚表指针值；正确的顺序如下：无继承时： 1、分配内存 2、初始化列表之前赋值虚表指针 3、列表初始化 4、执行构造函数体有继承时： 1、分配内存 2、基类构造过程（按照无继承来） 3、初始化子类虚表指针 4、子类列表初始化 5、执行子类构造函数体

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。