- 博客(5)
- 收藏
- 关注
原创 头歌-第1关:MapReduce的编程开发-求平均值
平均值有算术平均值,几何平均值,平方平均值(均方根平均值,rms),调和平均值,加权平均值等。其中以算术平均值最为常见。算术平均数,又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据,不适用于品质数据。根据表现形式的不同,算术平均数有不同的计算形式和计算公式。求平均数是 MapReduce 比较常见的简单算法,使用 Map 端读取数据传入至 Reduce 端,在从 Reduce 端汇总并且统计总值与数量,将两值作商即可得出平均数。
2024-04-02 17:40:29 1317 1
原创 头歌-第1关:MapReduce的编程开发-排序
在 MapReduce 的 Shuffle 的过程中执行了三次排序,分别是: map 中的溢写阶段:根据分区以及 key 进行快速排序。map 中合并溢写文件:将同一分区的多个溢写文件进行归并排序,合成一个大的溢写文件。reduce 输入阶段:将同一分区,来自不同 map task 的数据文件进行归并排序。在 MapReduce 整个过程中,默认是会对输出的键值对按照 key 进行排序的,而且是使用快速排序。map 输出的排序的,其实也就是上面的溢写过程中的排序。
2024-04-02 17:38:23 1764 1
原创 HBase Shell 操作:自动拆分和预分区
启动Zookeeper集群。进入hbase shell。创建的表使用自动拆分命令。启动hadoop集群。
2024-03-26 17:51:06 2467 2
原创 第2关:HBase添加数据、查看数据、删除数据
命令行,测评时间较长(第一次评测在50秒左右,第二次在26秒左右),请耐心等待。本关任务:在 hbase shell 中添加数据。命令行,这样可以加快测评时间,因为测评连接的是。开始你的任务吧,祝你成功!
2024-03-26 09:00:10 573
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人