Hadoop_day06

最新推荐文章于 2024-08-16 13:24:37 发布

和余岁岁年年

最新推荐文章于 2024-08-16 13:24:37 发布

阅读量65

点赞数

文章标签： hadoop mapreduce 大数据 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_50857637/article/details/128673091

版权

【MapReduce】

1. easily writing applications

2.process vast amounts of data:

1.in-parallel on large clusters (thousands of nodes) of 【以并行方式处理数据】

2.commodity hardware in a reliable 【了解】

3.fault-tolerant manner.

【什么是并行处理？】

多个task

单核和多核

【什么是容错？】

有重试机制

【mapreduce介绍】：

1.用的不多但是思想很重要

2.easily writing applications：

非常多的接口

业务逻辑+MR api =》开发完 mr程序 =》提交到yarn运行我们的程序

3.mr 使用与离线数据计算【不适合流式数据计算】

3.mapreduce 去统计wordcount

【问题】：

1.什么是Map阶段？

2.什么是Reduce阶段？

3.Map task 个数由什么东西决定的？

切片的数量

4.Reduce task 个数由什么东西决定的？

1.mr 用户自己决定

2.默认reduce task个数是 1

3.reduce task 个数最终文件输出的时候就有多少个文件

5.什么是shuffle？

6.reduce阶段一定要有吗？

7.partition 分区什么是分区？为什么要分区？

8.input 文件切片又是什么？

大数据数据处理三段论：

1.input

2.处理

3.output

4.mapreduce 整个流程？

(input) <k1, v1> -> map -> <k2, v2> -> reduce -> <k3, v3> (output)

1.整个阶段都是对 kv进行开发

2.每个阶段输出都是kv

3.kv 数据类型 have to be serializable：

1.mplement the Writable interface

deserializable

serializable 场景就是把数据进行网络传输

2. key classes have to implement the WritableComparable：

key既要实现序列化+排序

value 只需实现序列化

4.mapreduce 为例分析 wordcount 案例

input：文件里面的数据一行一行读取

按照分隔符进行拆分每个单词，每个单词赋值为1

x,x,x,y =》 (x,1)(x,1)(x,1)(y,1)

k => 表示的单词

v => 表示的次数

reduce: 归约 =》聚合

把相同的key “拉倒一起”，“做一些事情”

把相同的key “拉倒一起”：shuffle

“拉倒一起”：

(x,<1,1,1>)

(y,<1>)

“做一些事情”: sum

(x,3)

(y,1)

和余岁岁年年

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop_day06

Hadoop的mapreduce以及常见问题
复制链接

扫一扫

和余岁岁年年 CSDN认证博客专家 CSDN认证企业博客

码龄4年

16: 原创

153万+: 周排名

106万+: 总排名

1032: 访问

: 等级

160: 积分

0: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

最新评论

Linux_day01
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。