Hadoop认知--在不同的阶段

最新推荐文章于 2022-03-20 14:53:15 发布

新拖拉机

最新推荐文章于 2022-03-20 14:53:15 发布

阅读量1.1k

点赞数

分类专栏：分布式计算文章标签： Hadoop认知 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/puma_dong/article/details/26578419

版权

分布式计算专栏收录该内容

12 篇文章 0 订阅

订阅专栏

入门阶段

出于兴趣，及工作中的简单实用，大约经过1个月的时间，完成了对Hadoop的基本认知。

在这个月中我干了如下几件事

1、大体看了《Hadoop权威指南》，把里面的代码手工码了一遍，并写了8篇学习笔记

2、配置了Hadoop1和Hadoop2集群，都是用4台虚拟机

3、听了一些Hadoop视频

基本认知如下

Hadoop是一种大数据处理框架，这种大数据框架所能处理的场景实际是非常非常有限的，只能是键值对数据，只能是一行一行的固定格式化的数据，这种特性决定了它非常适合用来处理日志类文件，进行数据分析和挖掘。

Hadoop的核心是HDFS和MapReduce，HDFS是一种分布式的文件系统，MapReduce就是上面说的键值对计算模型，每次MapReduce计算任务都有一个固定的任务执行流程，所以对于小量数据分析来说（比如几万行数据），MapReduce其实一点都不快，用其他的编程方式处理，其实瞬间就完成了，MapReduce的这种工作方式只适合处理大数据，当然，Hadoop本身就是为大数据而生的。

Hive被我略过了，认知肤浅，先忽略。

Hbase所谓使用的变态数据插入场景，可能实际工作很难遇到，并且Mongo更易用，我做搜索推荐时，实际是使用Mongo存储中间数据及计算结果。

Cassandra，被略过了，工作中使用redis，并且redis3.0开始，支持分片了，简单易用，性能高效。

Pig，当前没有意愿花时间去学这样一个脚本语言，对于有大量基于Hadoop进行查询分析业务的公司，可能有使用的必要。

Sqoop，没有使用，先忽略。

Zookeeper，这真是个好东西，很多开源框架都使用Zookeeper作为开分布式协调中心，比如Dubbo、Otter等。

从学习成本角度，横向比较的话，我感觉Hadoop可以说和MySql之类是一个量级的产品，很快会用，但是想进阶，想精通，就需要在理论的基础上，在应用中不断的实践了。

进阶阶段

通过大量的日常工作中的Hadoop的使用，可以达到进阶阶段。

工作使用较少，我还是入门水平，期望有大量使用的机会，早日进阶，也让我知道在进阶阶段，我会对Hadoop是怎样的一个认知，再回来补充这篇日志

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop认知--在不同的阶段

记录在不同的学习使用阶段，个人对Hadoop的认识情况，当前入门阶段，介绍入门阶段对Hadoop的看法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。