Hadoop
文章平均质量分 69
Hadoop
不死鸟.亚历山大.狼崽子
太极计算机股份有限公司系统架构师,从事ios、.net、flex、java等开发
展开
-
windows环境搭建hadoop
1、下载hadoop下载hadoop2.5.2.tar.gz,并解压到你想要的目录下,我放在E:\hadoop-2.5.22、配置环境变量2.1windows环境变量配置右键单击我的电脑 –>属性 –>高级环境变量配置 –>高级选项卡 –>环境变量 –> 单击新建HADOOP_HOME,2.2接着编辑环境变量path,将hadoop的bin目录加入到后面;3、修改配置文件编辑“E:\hadoop-2.5.2\etc\hado...原创 2022-01-19 23:55:53 · 1442 阅读 · 0 评论 -
Hadoop(10):MapReduce程序运行模式
1.MapReduce 的输入和输出MapReduce 框架运转在<key,value>键值对上,也就是说,框架把作业的输入看成是一组<key,value>键值对,同样也产生一组<key,value>键值对作为作业的输出,这两组键值对可能是不同的。一个 MapReduce 作业的输入和输出类型如下图所示:可以看出在整个标准的流程中,会有三组<key,value>键值对类型的存在。2.MapReduce 的处理流程解析2.1Mapper 任原创 2022-01-04 21:38:18 · 493 阅读 · 0 评论 -
Hadoop(9):MapReduce程序运行模式
1、集群运行模式2、本地运行模式原创 2021-08-15 14:08:36 · 789 阅读 · 0 评论 -
Hadoop(8):MapReduce编程规范及示例编写
1、编程规范(1)用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行 mr 程序的客户端)(2)Mapper 的输入数据是 KV 对的形式(KV 的类型可自定义)(3)Mapper 的输出数据是 KV 对的形式(KV 的类型可自定义)(4)Mapper 中的业务逻辑写在 map()方法中(5)map()方法(maptask 进程)对每一个<K,V>调用一次(6)Reducer 的输入数据类型对应 Mapper 的输出数据类型,也是 KV(原创 2021-08-15 14:06:59 · 653 阅读 · 0 评论 -
Hadoop(7):MapReduce计算模型介绍
1、理解 MapReduce 思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。这两个阶段合起来正是MapRedu原创 2021-07-11 22:16:46 · 673 阅读 · 0 评论 -
Hadoop(6):shell定时采集数据至HDFS
实现流程一般日志文件生成的逻辑由业务系统决定,比如每小时滚动一次,或者一定大小滚动一次,避免单个日志文件过大不方便操作。比如滚动后的文件命名为access.log.x,其中x为数字。正在进行写的日志文件叫做access.log。这样的话,如果日志文件后缀是1\2\3等数字,则该文件满足需求可以上传,就把该文件移动到准备上传的工作区间目录。工作区间有文件之后,可以使用hadoop put命令将文件上传。代码实现#!/bin/bash#set java envexport ...原创 2021-07-04 00:16:53 · 1124 阅读 · 0 评论 -
Hadoop(5):HDFS 的应用开发
1、HDFS的JAVA API操作HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件。2、搭建开发环境2.1创建Maven工程引入pom依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId>原创 2021-07-04 00:13:13 · 485 阅读 · 2 评论 -
Hadoop(4):HDFS 基本原理
1、NameNode概述NameNode是HDFS的核心。 NameNode也称为Master。 NameNode 仅存储HDFS的元数据:文件系统中所有文件的目录树,并跟踪整个集群中的文件。 NameNode不存储实际数据或数据集。数据本身实际存储在DataNodes中。 NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNode知道如何从块中构建文件。 NameNode并不持久化存储每个文件中各个块所在的DataNode的位置信息,这些信息会在系统启动时从数据节原创 2021-07-01 11:35:23 · 230 阅读 · 0 评论 -
Hadoop(3):HDFS 基本操作
1、Shell命令行客户端Hadoop 提供了文件系统的 shell 命令行客户端,使用方法如下:hadoop fs <args>文件系统 shell 包括与 Hadoop 分布式文件系统(HDFS)以及 Hadoop 支持的其他文件系统(如本地FS,HFTP FS,S3 FS 等)直接交互的各种类似shell的命令。所有FS shell命令都将路径URI作为参数。URI格式为scheme://authority/path。对于HDFS,该scheme是hdfs,对于本地FS,原创 2021-06-29 21:49:44 · 468 阅读 · 1 评论 -
Hadoop(2):HDFS 入门
1、HDFS 基本概念1.1HDFS 介绍HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。1.2 HDFS设计目标硬件故障是常态, HDFS 将有成百上千的服务器组成,每一个组成部分都.原创 2021-06-29 01:13:47 · 186 阅读 · 0 评论 -
Hadoop(1):Hadoop 初体验
1、HDFS 使用2、运行mapreduce程序原创 2021-06-29 00:56:29 · 266 阅读 · 0 评论 -
Hadoop集群环境搭建
环境准备:提前准备3台虚拟机,安装centos7.0,配置好固定ip,我这边配置的ip如下,请根据自己的实际情况配置:192.168.222.131 192.168.222.130 192.168.222.132下载hadoop安装包,我这边选择的是2.5.0。可根据自己需求来下载。注意:1.X、2.X、3.X有版本差异,该文章只适用2.0以上版本。1、服务器设置1.1同步时间(1)手动同步集群各机器时间date -s "2021-06-21 03:03:03"(原创 2021-06-27 19:05:46 · 299 阅读 · 0 评论 -
Hadoop环境搭建
1.下载hadoop2.5.0安装包然后通过tar命令进行解压2.配置环境进入etc/hadoop进行环境配置2.1配置hadoop-env.sh将JAVA_HOME地址配置为本地jdk的安装地址2.2配置core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://xiongpeng.com:900...原创 2021-06-02 23:13:18 · 172 阅读 · 2 评论 -
Mac单机安装Hadoop
环境:Mac: 10.14.2Hadoop: 2.9.2Java: 1.8.0_144原创 2020-02-23 16:41:32 · 546 阅读 · 1 评论