![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据前篇
文章平均质量分 84
大数据前篇
Radiation_x
这个作者很懒,什么都没留下…
展开
-
mapreduce之shuffle详解
FileInputFormat阶段切分的3数据片(也可根据需求生成多个MapTask来处理数据片,能够提高速度) map方法按行读取生成KV对 MapTask阶段的Shuffle过程(所有MapTask是并行的) (1) Map方法执行的数据进入环形缓冲区,当数据达到80%时,溢写 (2) 溢写到磁盘前对数据进行分区和区内排序 ,调用分区器进行分区(默认是Hash),对key进行排序,默认按字典顺序,采用的手段是快排,就是Collect收集阶段, (3) 溢写到了磁盘(这时只是临时文件,并没有真正落盘,因.原创 2021-01-16 17:47:18 · 315 阅读 · 1 评论 -
大数据前篇04_HDFS详解
HDFS HDFS定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 HDFS 优缺点 优点 (1) 高容错性 (a) 数据自动保存多个副本。它通过增加副本的形式,提高容错性 (b) 某一个副本丢失以后,它可以自动恢复 (2原创 2021-01-12 21:50:36 · 235 阅读 · 0 评论 -
大数据前篇03_Hadoop入门_环境的搭建_运行模式
Hadoop入门 Hadoop的优势: (1)高可靠性 (2)高扩展性 (3)高效性 (4)高容错性 Hadoop的组成部分 HDFS (数据存储) NameNode 管理真实数据块的元数据的,管理多个DataNode(大哥) DataNode 对真实数据块进行存储管理(小弟) SecondaryNameNode 是NameNode的助手,帮助NameNode完成一些事情 MapReduce (数据的计算) Map阶段 就是把一个job分成多个task来并行计算执行 Reduce阶段 原创 2021-01-12 21:44:34 · 157 阅读 · 0 评论 -
大数据前篇02_shell编程
shell编程 bash和sh的关系:sh是通过 指向bash(解释器),bash负责解释shell命令给linux内核 shell脚本入门 脚本格式 脚本以#!/bin/bash开头(指定解释器) 脚本的常用执行方式 (1)采用bash或sh +脚本的相对路径或者结对路径(不用赋予脚本+X权限) sh+脚本的相对路径: [atguigu@hadoop101 datas]$ sh helloworld.sh 输出:Helloworld sh+脚本的绝对路径 [atguigu@hadoop10原创 2021-01-12 21:41:20 · 124 阅读 · 0 评论 -
大数据前篇01_linux常见命令
linux常见命令 常用指令 . ls 显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录,包括隐藏的a(all) . mkdir 创建目录 -p 创建目录,若无父目录,则创建p(parent) . cd 切换目录 . touch 创建空文件 . echo 创建带有内容的文件。 . cat 查看文件内容 . cp 拷贝 .原创 2021-01-12 21:40:36 · 268 阅读 · 0 评论