Hadoop
{[("青椒盖饭")]}
这个作者很懒,什么都没留下…
展开
-
Hadoop-MapReduce原理
MapReduce是将一个大任务分成多个小任务(Map),并执行之后,合并结果(reduce).其实许多分析计算的过程都可以拆分成两个步骤Map:分成多个子任务reduce:合并所有子任务的执行结果举一个例子:假设现在有1000副扑克牌,其中有一个副扑克牌中少了一张,如何找出少了哪一张牌?如果使用MapReduce的方式就是先将1000副扑克牌分成多份,比如说分成5份,交由5个人手中,每个人开始将手中的牌进行分类计算,每个人都会得出A有几张,2有几张等等,最后得出结果,分析.原创 2021-03-08 00:01:44 · 406 阅读 · 0 评论 -
HDFS使用
查看HDFS的文件列表hadoop fs -ls /在HDFS之中创建文件夹hadoop fs mkdir 目录名称将本地文件上传到HDFS之中hadoop fs -put 本地文件路径 hdfs目录名称将HDFS中的文件下载到本地hadoop fs -get HDFS文件目录 下载到本地目录...原创 2021-03-02 23:24:31 · 164 阅读 · 0 评论 -
HDFS读写文件流程
HDFS读取文件流程客户端发送读取文件请求到NameNodeNameNode返回元数据(文件名,块路径)给客户端客户端根据元数据读取对应的数据块,然后将数据库组装得到文件HDFS写文件流程将文件拆分成多个块(Block,每个block大小为64M)返回可用的DataNode将块写入DataNode进行流水线复制,将块复制到其他DataNode更新元数据...原创 2021-02-24 23:43:04 · 129 阅读 · 0 评论 -
Hadoop基本概念与数据管理策略
HDFS基本概念快(Block)HDFS的文件被分成块进行存储,HDFS块的默认大小为64M,块是文件存储处理的逻辑单元NameNodeNameNode是管理节点,存放文件元数据,元数据包含以下两个部分文件与数据块的映射表数据块数据节点的映射表DateNodeDateNode是HDFS的工作节点,存放数据块数据管理策略数据库副本HDFS的每个数据块会有三个副本,分布在两个机架内的三个节点,以确保任何一个节点发生故障时,可以通过其他节点获取数据心原创 2021-02-24 23:31:55 · 124 阅读 · 0 评论 -
Hadoop安装
安装前置条件:已安装好JDK并配置环境变量开始安装Hadoop下载Hadoop压缩包,使用wget方式获取wget https://archive.apache.org/dist/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz将压缩包加压到/opt目录下mv hadoop-1.2.1.tar.gz /optcd /opttar -zxvf hadoop-1.2.1.tar.gz解压完成之后,进入conf/目录中,需要配置以下四个.原创 2021-02-13 18:54:10 · 371 阅读 · 0 评论 -
Hadoop简介
Hadoop的由来随着网络时代的发展,用户产生的数据越来越多,大数据时代来临.于是许多政府和企业开始关注如何去获取更多的数据,从数据中挖掘出更多的价值.例如:从众多视频监控数据中发现潜逃罪犯,企业通过多年的盈利亏损数据来分析未来企业的发展趋势等等.谷歌公司最早提出了大数据的解决方案,并且很好地降低了存储数据的成本,谷歌最早的大数据技术为:Google File System:文件系统MapReduce:编程模式和运行环境BigTable:一个SortMap但是由于谷歌没有提供原创 2021-02-11 18:55:16 · 213 阅读 · 0 评论