hadoop
kxj19980524
程序员在线接单
展开
-
Windows上配置启动hadoop单机版
hadoop包win10链接:https://pan.baidu.com/s/1yXfyBesrUeZuR-KPPUG1eQ提取码:mnvlwin7链接:https://pan.baidu.com/s/1dW9L3F6pKNPtU9b3EIcRJA提取码:9wl0配置好环境变量修改配置文件不要输入中文,不然会报格式错误,要不然就自己改成utf-8...原创 2019-06-18 11:38:44 · 1694 阅读 · 0 评论 -
HBase自定义MapReduce从HDFS到HBase-07
还是用05里面的案例,只不过是自定义的mapreduce程序编写步骤其实该案例的思想和06没有太大不同,思路总体还是一样的,只不过这次Mapper不是从HBase的表里读取数据了,而是从HDFS上的文件中读取数据,所以Mapper可直接继承自HDFS的Mapper。Mapperpackage com.buba.mapper;import java.io.IOExcepti...原创 2019-05-02 10:15:50 · 210 阅读 · 0 评论 -
HBase自定义MapReduce从HBase到HBase-06
案例操作:把HBase中一张表的数据导入到另一张表中源数据插入到这张表中主要是看这个HBase写MapReduce和Hadoop的MapReduce的不同,Mapper里面是把HBase里的数据拿出来,这个过程可以自己加一些清洗数据,或者是过滤一些字段的功能,主要是看这个用法.Mapperpackage com.buba.mapper;import java.io...原创 2019-05-01 21:42:57 · 215 阅读 · 0 评论 -
HBase使用命令运行mapreduce程序以及tsv,csv导入到HBase操作-05
先配置hbase和hadoop的环境变量,因为它是使用命令执行mapreduce程序,环境变量只是临时用一下,不用永久配置到/etc/profile里面,执行export命令就是在当前会话中可以使用这个环境变量.执行环境变量导入$ export HBASE_HOME=/opt/modules/cdh/hbase-0.98.6-cdh5.3.6/$ export HADOOP_HOME=...原创 2019-05-01 17:09:00 · 779 阅读 · 0 评论 -
Oozie调度定时任务的使用方式-05
在执行下面操作之前,首先得配置好oozie的时区,因为它默认时区和咱们时间相差8小时https://blog.csdn.net/kxj19980524/article/details/89556348 这里面有配置时区的.拷贝定时器的官方模板到oozie根目录下nameNode=hdfs://hadoop-senior01.buba.com:8020jobTracker=...原创 2019-04-27 14:53:13 · 907 阅读 · 0 评论 -
Oozie调度mapreduce任务的使用方式-04
先编写一个可以运行的MR任务的.jar包,我这里直接拷贝hadoop现成的jar包.复制一个执行mapreduce的官方模板到oozie根目录下.先执行一下这个mapreduce程序,因为oozie在配置mapreduce的时候需要一些输入输出参数类型,因为这个jar包不是自己写的不知道它是什么类型,执行完后可以在历史任务里查看到它的一些详细信息,里面有那些需要的参数./opt...原创 2019-04-27 13:27:00 · 404 阅读 · 0 评论 -
Oozie简单案例执行多个脚本-03
Oozie简单案例执行一个脚本-02https://blog.csdn.net/kxj19980524/article/details/89576687在一个脚本的基础上修改配置文件,添加一个脚本p2.sh编写一个新的脚本p2.sh 让它输出一个日期为了验证oozie是工作流的形式,把p1.sh也改成输出时间,看时间上的差异修改workflow,添加一个动作....原创 2019-04-27 09:56:18 · 299 阅读 · 0 评论 -
MapReduce之Shuffle机制-Combiner合并-07
1)combiner是MR程序中Mapper和Reducer之外的一种组件2)combiner组件的父类就是Reducer3)combiner和reducer的区别在于运行的位置:Combiner是在每一个maptask所在的节点运行Reducer是接收全局所有Mapper的输出结果;4)combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络传输量...原创 2019-04-15 16:11:27 · 220 阅读 · 0 评论 -
hive的环境搭建,以及简单使用-01
这里面有一套cdh版本的hadoop,hive,zookeeper,都是配套的链接:https://pan.baidu.com/s/1wmyMw9RVNMD4NNOg4u4VZg提取码:m888重新配置一遍hadoop运行环境,详细的配置在https://blog.csdn.net/kxj19980524/article/details/88954645<configu...原创 2019-04-22 19:58:44 · 1689 阅读 · 0 评论 -
Oozie简单案例执行一个脚本-02
这个是Oozie自带的简单案例,解压它到当前目录这个是oozie执行shell脚本调度任务的属性信息和工作流.在oozie执行任务调度的时候必须把这两个东西上传到hdfs上才可以执行.先创建个文件夹,把shell复制到这里来#nameNode如果配置了高可用的话就直接hdfs://高可用的名称 不用加端口号了nameNode=hdfs://hadoop-sen...原创 2019-04-26 21:02:24 · 520 阅读 · 0 评论 -
MapReduce之Shuffle机制-自定义排序-06
MapReduce序列化即案例演示-02https://blog.csdn.net/kxj19980524/article/details/89282996在案例2的基础上进行操作案例2中最终的结果是这样的,现在需要按照总流量进行排序改怎么办呢?现在就需要以这个文件为输入,再执行一个mapreduce程序,但是排序只能对key进行排序,所以mapper的输出key就得是实体类,...原创 2019-04-15 11:45:31 · 408 阅读 · 0 评论 -
Oozie安装步骤-01
Oozie英文翻译 驯象人Oozie简介 一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop Mapreduce、Pig Jobs的任务调度与协调。 Oozie需要部署到Java Servlet容器中运行。Oozie在集群中扮演的角色 定时调度任务,多任务可以...原创 2019-04-26 19:36:30 · 690 阅读 · 0 评论 -
Flume监听文件夹的变动-03
在上一篇的基础上再复制一份配置文件# Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE file# distributed with this work for additional informat...原创 2019-04-26 15:14:44 · 704 阅读 · 0 评论 -
Flume监听上传Hive日志文件到HDFS-02
拷贝Hadoop相关jar到Flume的lib目录下 share/hadoop/common/lib/hadoop-auth-2.5.0-cdh5.3.6.jar share/hadoop/common/lib/commons-configuration-1.6.jar shar...原创 2019-04-26 14:26:59 · 352 阅读 · 0 评论 -
HIVE分区-03
在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,分区就会解决这个问题partitioned by (date string,hour string) 指定分区字段,在创建表的时候,导入数据的时候就会根据这两个字段导入,字段还可以再加.create database if not exists db_web_da...原创 2019-04-23 18:45:56 · 126 阅读 · 0 评论 -
HiveServer2配置与使用-04
bin/hive是本地客户端连接,HiveServer2是远程连接.方便其它的节点控制该客户端.假设有多个hadoop集群,当前这个集群开了HiveServer2服务,远方的那个hadoop集群也可以通过bin/beeline来操控当前的这个hive.配置5000去掉L查看端口号是否被占用sudo netstat -antp | grep 10000启动服务,启...原创 2019-04-23 20:38:10 · 376 阅读 · 0 评论 -
HBase与Hive交互操作-08
HBase与Hive的对比Hive数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。(不要钻不需要执行Map...原创 2019-05-03 16:09:30 · 196 阅读 · 0 评论 -
java对HBase表操作-04
导入依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>0.98.6-hadoop2&l...原创 2019-05-01 11:53:34 · 255 阅读 · 0 评论 -
sqoop从HDFS/Hive导入导出mysql的使用
这里面有一套cdh版本的hadoop,hive,zookeeper,都是配套的链接:https://pan.baidu.com/s/1wmyMw9RVNMD4NNOg4u4VZg提取码:m888sqoop主要用来,mysql---hive/hdfs,或者从hive/hdfs-mysql的导入导出sqoop它是基于zookeeper的,所以得先开启zookeeper...原创 2019-04-24 20:43:57 · 949 阅读 · 0 评论 -
HBase-Shell常用操作-03
进入HBase客户端命令操作界面 bin/hbase shell查看帮助命令help显示服务器状态显示HBase当前用户查看当前数据库中有哪些表 list创建一张表 create 'student','info' student表名 info列族名创建多个列族:hbase>...原创 2019-04-29 10:58:45 · 232 阅读 · 0 评论 -
HBase高可用配置-02
首先这个配置不能写死成固定节点,不然不能配置高可用,直接写端口就可以了.详细配置在https://blog.csdn.net/kxj19980524/article/details/89639912在HBase集群的基础上进行高可用,选择第一台机器节点为主节点,在它的HBase的conf文件夹下,创建backup-masters文件在里面添加高可用的节点,我现在集群有三台,...原创 2019-04-29 09:39:07 · 685 阅读 · 0 评论 -
Hue的安装与集成hdfs,yarn,hive,mysql,oozie,hbase,zookeeper
来源HUE=HadoopUser Experience,看这名字就知道怎么回事了吧,没错,直白来说就是Hadoop用户体验,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的Web控制台上与Ha...原创 2019-05-04 16:22:40 · 419 阅读 · 0 评论 -
hadoop-NameNode-HA配置
hadoop第一个版本刚开始是没HA(高可用high availability)的,那会儿出现很多问题,单台namenode出现故障,就导致集群hdfs没办法访问,数据虽然没有坏,但是namenode坏了,那会儿就是手动写脚本,把edits,fsimage这两个东西,也就是namenode的数据复制一份出来,一旦出现问题,就把数据恢复回去,但是这样很慢,也不知道啥时候namenode坏的,后来版...原创 2019-04-20 21:20:26 · 587 阅读 · 0 评论 -
Hive导入导出操作-06
对表进行操作把别的表的部分或全部字段及其内容提取出来,创建成一个新的表.create table emp2 as select empno,ename,job from emp;create table emp3 like emp; 复制表结构 like关键字,不会复制数据insert导入,跟上面创建表直接导入数据的意思一样.只不过这个得表提前存在.追加-a...原创 2019-04-24 14:01:34 · 213 阅读 · 0 评论 -
Hive之UDF(user definition function)用户定义函数-05
编写一个字母大写转换为小写的自定义函数直接上代码,创建maven项目导入依赖 ,注意jdk版本最好和hadoop集群上jdk版本一致,不然的话可能会出问题.<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi...原创 2019-04-24 09:23:13 · 184 阅读 · 0 评论 -
HBase节点的管理,服役与退役
服役(commissioning)当启动regionserver时,regionserver会向Hmaster注册并开始接收本地数据,开始的时候,新加入的节点不会有任何数据,平衡器开启的情况下,将会有新的region移动到开启的RegionServer上。如果启动和停止进程是使用ssh和HBase脚本,那么会将新添加的节点的主机名加入到conf/regionservers文件中。退役(de...原创 2019-05-03 20:59:09 · 425 阅读 · 0 评论 -
HBase安装部署-01
hbase-chd发行版https://download.csdn.net/download/kxj19980524/11149638配置hbase-env.sh配置hbase-site.xml<configuration> <property> <!-- hbase根目录,,如果hadoop集群是高可用的话,带高可用名称,别写死节点...原创 2019-04-28 16:54:19 · 608 阅读 · 0 评论 -
sqoop将RDBMS中的数据抽取到HBase中
配置sqoop准备工作,在MySQL创建表数据CREATE TABLE book(id int(4) PRIMARY KEY NOT NULL AUTO_INCREMENT, name VARCHAR(255) NOT NULL, price VARCHAR(255) NOT NULL);INSERT INTO book(name, price) VAL...原创 2019-05-03 16:45:57 · 269 阅读 · 0 评论 -
Yarn工作机制
Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序Yarn的重要概念1)Yarn并不清楚用户提交的程序的运行机制2)Yarn只提供运算资源的调度(用户程序向Yarn申请资源,Yarn就负责分配资源)3)Yarn中的主管角色叫ResourceManager...原创 2019-04-17 15:39:48 · 233 阅读 · 0 评论 -
MapReduce之倒排索引案例-13
源文件结果 这种结果是倒排索引,就是根据值后面跟一系列这个值在各个文件中出现的次数.正排索引就是以文件名为索引,后面跟每个文件里所出现的词这种叫正排索引分两次处理,多job串联package com.buba.mapreduce.index;import org.apache.hadoop.io.IntWritable;import org.apache.hado...原创 2019-04-17 15:28:50 · 159 阅读 · 0 评论 -
hadoop自定义机架实现-08
网络拓扑概念: 在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。 节点距离:两个节点到达最近的共同祖先的距离总和。例如,假设有数据中心d1机架r1中的节点n1。该节点可以表示为/d1/r1/n1。利用这种标记,这里给出四种距离描述。D...原创 2019-04-08 20:48:01 · 376 阅读 · 2 评论 -
hdfs各个节点工作机制-09
(1)Fsimage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件idnode的序列化信息。(2)Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到edits文件中。(3)seen_txid文件保存的是一个数字,就是最后一个edits_的数字(4)每次Namenode启动的时候都会将...原创 2019-04-09 18:46:39 · 624 阅读 · 0 评论 -
HDFS读写数据流程-07
1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以packet为单位来做校验)。4)客户端以packet为单位接收,先在本地缓存,然后写入目标文件。5) 把多个block都...原创 2019-04-07 15:29:06 · 302 阅读 · 0 评论 -
hadoop快照的使用方式-14
快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。开启快照hdfs dfsadmin -allowSnapshot /user/kxj/input 指定给哪个路径开启快照hdfs dfs -createSnapshot /user/kxj/input 对目录创建快照查看一下生成的文件,但是在web页面是查看不...原创 2019-04-10 20:09:47 · 1679 阅读 · 3 评论 -
hadoop回收站使用方式-15
默认值fs.trash.interval=0,0表示禁用回收站,可以设置删除文件的存活时间。默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。要求fs.trash.checkpoint.interval<=fs.trash.interval。检查回收站时间就是隔多长时间检查一次是否到清空回收站的时间了.如果这个时间大于文件存活时间那么就不合适....原创 2019-04-10 20:54:25 · 505 阅读 · 0 评论 -
java客户端连接hdfs实现简单功能-06
完全分布式部署Hadoop-04https://blog.csdn.net/kxj19980524/article/details/88954645上面是hadoop集群的搭建连接客户端前先下载相应的jar包,和hadoop编译过的源码win10链接:https://pan.baidu.com/s/1yXfyBesrUeZuR-KPPUG1eQ提取码:mnvlwin7...原创 2019-04-06 16:58:42 · 2732 阅读 · 0 评论 -
Hadoop存档-13
1)理论概述每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽namenode中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB。Hadoop存档文件或HAR文件,是一个...原创 2019-04-10 16:14:30 · 172 阅读 · 0 评论 -
伪分布式运行Hadoop 案例-03
本地文件运行Hadoop 案例-02https://blog.csdn.net/kxj19980524/article/details/88935171HDFS上运行MapReduce 程序notpad++连接虚拟机修改配置文件https://blog.csdn.net/kxj19980524/article/details/88655985修改hadoop-env.sh文件,en...原创 2019-04-01 09:55:12 · 488 阅读 · 0 评论 -
hadoop运行环境搭建-01
下面都是在centOS64位进行的首先把自己网络搭建好,NAT模式,并且能连接外网,设置成固定iphttps://blog.csdn.net/kxj19980524/article/details/88634455清空root目录下的闲杂文件清除opt下面的文件关闭防火墙永久保存chkconfig iptables --list 查看防火墙状态chkconfig ipt...原创 2019-04-01 09:32:37 · 448 阅读 · 0 评论 -
本地文件运行Hadoop 案例-02
hadoop运行环境搭建-01https://blog.csdn.net/kxj19980524/article/details/88934339grep案例grep案例就是执行一个mapreduce程序,从一堆文件里面找出符合那个正则的单词,输出到一个文件夹里在hadoop目录下创建input文件夹把hadoop下面的所有xml文件复制到自己创建的input目录下,这些文件做...原创 2019-04-01 08:44:50 · 528 阅读 · 0 评论