Hadoop学习总结

最新推荐文章于 2024-08-20 07:30:00 发布

666呀

最新推荐文章于 2024-08-20 07:30:00 发布

阅读量7.8k

点赞数 2

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/suubyy/article/details/80397176

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

- Hadoop定义

- Hadoop组件

分布式文件系统HDFS
1. NameNode
  1. 维护HDFS文件系统，是文件系统的主节点，不存储文件数据
  2. 接受客户端的请求，如上传文件，下载文件，穿件目录等。
  3. 记录了客户端的操作日志（edits），保存了HDFS的最新状态
    1. edits文件保存了自最后一次检查点之前的对HDFS的操作信息，比如说新增文件，保存文件，删除目录等信息。
    2. 保存目录为${HADOOP_HOME}/tmp/dfs/name/current/
    3. 查看可以使用hadoop oev -i xxxxxxxxxxx
  4. 维护HDFS文件的元数据，将内存中不经常用到的元数据保存到硬盘中（fsimage文件）
    1. fsimage是存储在磁盘上的元数据信息的检查点，里边存储的是自最后一次检查点之前的DHFS文件目录和文件的序列化信息
2. DataNode数据节点
  1. 以数据块为单位储存数据
  2. 数据保存的目录由hadoop.tmp.dir决定
3. Secondary NameNode第二名称节点
  1. 主要是合并日日志
  2. 日志合并过程
分布式计算Yarn``MapReduce
1. ResourceManager（资源管理器）
  1. 接受客户端的请求：执行任务
  2. 分配任务资源
  3. 分配任务
2. NodeManager（节点管理器，运行MapReduce任务）
  1. 从DataNode获取数据，执行任务

- Hadoop集成Snappy压缩（Hadoop为CDH版本）

去该网站下载你对应hadoop的cdh版本 (http://archive.cloudera.com/cdh5/redhat/7/x86_64/cdh/5.7.0/RPMS/x86_64/)
rpm解压,默认的安装目录是 /usr/lib/hadoop/
rpm -ivh hadoop-2.6.0+cdh5.7.0+1280-1.cdh5.7.0.p0.92.el7.x86_64.rpm --nodeps
将/usr/lib/hadoop/lib/native目录拷贝到${HADOOP_HOME}/lib下，然后在${HADOOP_HOME}/bin下运行：
hadoop hadoop checknative
出现snappy为true就说明你成功了
在命令行使用压缩：
hadoop jar /opt/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount -Dmapreduce.map.output.compress=true -Dmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec /user/liyuzhi/wordcount/wordcount.txt /user/liyuzhi/wordcount/output/

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

666呀 CSDN认证博客专家 CSDN认证企业博客

码龄7年

181: 原创

5万+: 周排名

155万+: 总排名

27万+: 访问

: 等级

3975: 积分

104: 粉丝

101: 获赞

68: 评论

255: 收藏

私信

关注

热门文章

分类专栏

多线程 1篇
flink 19篇
数仓 3篇
IO 1篇
Redis 3篇
分布式 1篇
大数据专栏（一）Spark 27篇
s3 1篇
编程语言专栏（一）Scala 11篇
算法 5篇
spring 9篇
zookeeper 1篇
mysql 14篇
linux 3篇
scala 10篇
quartz 2篇
spark 31篇
hbase 2篇
hadoop 1篇
hive 1篇
Java设计模式 1篇
ambari 3篇
springmvc 1篇
vspere 1篇
elasticsearch 39篇
springboot 3篇
kafka 2篇

最新评论

Redisson分布式锁-源码分析
水中加点糖: 整体流程图不太对，没有设备锁过期时间也会有看门狗定时续期的。
CacheManager设置Jackson2JsonRedisSerializer的时候不生效问题
666呀: config.serializeKeysWith这行代码是创建了一个新的RedisCacheConfiguration ，也就是说config.serializeKeysWith这行代码并没有给最上边自己创建的RedisCacheConfiguration 设置serializeKeysWith这属性。所以才不会生效，只有用返回的新RedisCacheConfiguration 才会生效
CacheManager设置Jackson2JsonRedisSerializer的时候不生效问题
csdnzhw: RedisCacheConfiguration config = redisCacheConfiguration(cacheProperties) .serializeKeysWith(RedisSerializationContext.SerializationPair.fromSerializer(redisSerializer)) .serializeValuesWith(RedisSerializationContext.SerializationPair.fromSerializer(jackson2JsonRedisSerializer)) .entryTtl(Duration.ofMinutes(10)); 遇到类似的问题，上面这种写法也能解决。只是不明白为什么要这么搞。。。
Kafka Consumer消费压力测试
恰柠檬的铲车人: 请问楼主，comsumer测试结果中最后4项数据显示很奇怪，该怎么解决呢？数据如下： 2022-05-11 17:55:35:384, 2022-05-11 17:55:38:372, 9.5367, 3.1917, 100000, 33467.2021, 1652262936976, -1652262933988, -0.0000, -0.0001
MySQL8安全指南之一般安全问题
Cdf（人名）: 都是博主辛苦创作，我来支持一下，奥利给,期待大佬回访！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。