Hadoop
cindysz110
望尘莫及,日积月累。
展开
-
[Hadoop] Hadoop Streaming使用Python编程
Hadoop Streaming 是Hadoop提供方的一个编程工具,它允许用户使用任何可执行文件或者脚本作为Mapper和Reducer。Hadoop Streaming 多语言编程1. 以标准输入流作为输入: 1) C++: cin 2) Php: stdin 3) Python: sys.stdin2. 以标准的输出流作为输出: 1) C++: cout 2) ...原创 2018-05-14 10:04:43 · 4662 阅读 · 0 评论 -
[Hadoop] Zookeeper 安装部署与简单操作
Zookeeper - 负责分布式系统的协调服务。Hadoop集群中,zk节点的数量 n/2+1个,其中n>1,一般集群中zk的数量为3/5/7/9个。多个zk可以搭在同一个节点上。 1. Zookeeper下载安装我的环境使用的是cdh5.7.0版本的套件,所以zookeeper也选择对应的版本下载。下载[hadoop@hadoop000 software]$ w...原创 2018-08-23 23:17:23 · 873 阅读 · 0 评论 -
[Hadoop] hadoop-2.6.0-cdh5.7.0 编译报错“maven-shade-plugin”解决
CDH版本hadoop(hadoop-2.6.0-cdh5.7.0)编译报错,使用编译加上-X命令打印出来详细错误信息:[WARNING] Could not transfer metadata org.apache.maven.plugins:maven-shade-plugin/maven-metadata.xml from/to central (https://repo.maven....原创 2018-08-21 15:16:09 · 1596 阅读 · 0 评论 -
[Hadoop] Zookeeper watcher
1. 基本概念Zookeeper 针对每个节点的操作,都有一个监督站:watcher。zk watcher有两种,一种是zk server端的,另外一种是zk client端的:server端的watcher是一次性的,每个watcher只监听一次(只能监听一个操作),监听完就没了。 client端的API不是一次性的,会一直监听。 2. ZK自带的watcher(一次性...原创 2018-08-28 22:50:53 · 252 阅读 · 0 评论 -
[Hadoop] Spark SQL
Spark SQLSpark SQL is Apache Spark's module for working with structured data.由于Hive太慢而产生的一系列SQL on Hadoop框架:Hive:优点上手快,缺点运行速度太慢 Impala Presto:国内有京东在使用 Shark:把hive跑在spark之上 Drill HAWQ Phoen...原创 2018-08-29 21:55:24 · 308 阅读 · 0 评论 -
[Hadoop] 使用Spark SQL来访问Hive里面的数据
1. 环境准备1.1 安装Hive1.2 安装Spark1.3 拷贝hive的conf下的hive-site.xml到spark的conf目录下[hadoop@hadoop000 ~]$ cd app/spark[hadoop@hadoop000 spark]$ cp ~/app/hive-1.1.0-cdh5.7.0/conf/hive-site.xml conf/1.4...原创 2018-08-29 22:42:05 · 3307 阅读 · 0 评论 -
[Hadoop] Spark2.3.1编译报错“[error] javac: invalid source release: 1.8”解决
编译环境:CentOS7.3 + Maven-3.3.9 + JDK1.8.0_181 + Scala-2.11.12Hadoop版本:hadoop-2.6.0-cdh5.13.1Spark源码版本:spark-2.3.1 Spark编译报错:[error] javac: invalid source release: 1.8[hadoop@hadoop000 spark-...原创 2018-09-06 11:44:45 · 1422 阅读 · 0 评论 -
[Hadoop] CentOS7源码编译部署Azkaban-3.58.0多Executor
Azkaban3.0+版本提供了三种安装模式:单solo-server mode:单机模式,适合开发使用。使用内置的h2数据库,web server和executor server在同一个进程里; two server mode:双机模式,适合生产环境。使用主从的MySQL做元数据存储,web server和executor server在不同的进程中,更新和升级对用户的影响较小; ...原创 2018-09-18 18:13:54 · 654 阅读 · 0 评论 -
[Hadoop] 大数据项目实操 (未完成)
1. 背景公司已有业务系统繁多,日志量大,需要集中管理,预警和监控。传统的日志方案不满足需求:ELK:适合中小型企业,数据量大hold不住。 目前很多监控服务(如zabbix)还达不到秒级的通知,有时间延迟外部压力:SLA:服务宕机时间 99.99%,即允许服务宕机时间为0.01% 2. 需求在线日志收集->分析->可视化&预警,使用大数据...原创 2018-09-29 15:17:24 · 2579 阅读 · 0 评论 -
[Hadoop] Azkaban 安装插件
前面我们完成了Azkaban-3.58.0的源码编译和multiple-executor mode部署,现在来安装hdfs-viewer插件。1. 拷贝hdfs-viewer到目标主机hdfs-viewer插件是安装在azkaban-web-server端的,首先去目标主机的$AK_HOME/下新建plugins/viewer文件夹,然后解压编译好的将编译好的hdfs-viewer插...原创 2018-09-20 22:01:59 · 764 阅读 · 0 评论 -
[Hadoop] Zookeeper伪分布式集群部署
1. Zookeeper集群概念ZK集群:3个节点,一个leader,2个follower 2. 伪分布式集群部署伪分布式:1台机器上面搭建多个ZK节点2.1 解压安装zk解压zookeeper安装包并拷贝成三份,也就是三个zk节点[hadoop@hadoop000 app]$ cp -r zookeeper-3.4.5-cdh5.7.0 zk001[hadoop@...原创 2018-08-27 23:57:18 · 527 阅读 · 0 评论 -
[Hadoop] Hadoop源码编译时“Remote host closed connection during handshake: SSL peer shut down” 错误解决
Hadoop源码编译时经常碰到下面这种错误,“Remote host closed connection during handshake: SSL peer shut down incorrectly”,原因是网络问题,下载jar包的时候与远程仓库断开了连接。[hadoop@cassandra01 hadoop-2.6.0-cdh5.7.0]$ mvn clean package -Pdi...原创 2018-08-16 15:19:19 · 2568 阅读 · 0 评论 -
[Hadoop] Hive 库表基本操作
Hive 创建数据库hive> create database if not exists db1;hive> create schema if not exists db2;删除数据库hive> drop database db2;hive> drop schema db1;创建表hive> CREATE TABLE IF NOT EXISTS employee...原创 2018-05-15 14:21:39 · 433 阅读 · 0 评论 -
[Hadoop] Hadoop2.8.1源码编译
系统环境:操作系统:CentOS-7.2Java版本: jdk-8u45Maven版本: Maven-3.3.9Hadoop版本: Hadoop-2.8.11. 修改主机名原创 2018-05-22 09:11:21 · 251 阅读 · 0 评论 -
[Hadoop] Hive 内部表与外部表
Hive中表与外部表相同: 1. 它们都是用mysql/derby作为元数据存储,在元数据的组织上是相同的,都是用hdfs做实际的数据存储,本身没有数据存储的功能,需要借助hdfs; 2. 它们都可以在建表的时候指定一个指向HDFS文件夹的路径,如果不指定这个路径,那么默认的hive表中的数据会保存在HDFS上/user/hive/warehouse上一个和表名称一样的文件夹中; ...原创 2018-05-15 22:13:07 · 853 阅读 · 0 评论 -
[Hadoop] Hive 添加自动分区
https://ke.qq.com/webcourse/index.html#course_id=247137&term_id=100291520&taid=1627972994057569&vid=j1416q79y9w原创 2018-05-15 22:27:25 · 1865 阅读 · 0 评论 -
[Hadoop] Hadoop2.8.1 伪分布式部署
Hadoop2.8.1 伪分布式安装,需要先把Hadoop的源码包编译成tar包,或者直接下载已编译好的tar包,再来部署。为分布式部署方式的HDFS NameNode、DataNode、Secondary NameNode以及Yarn的Resource Manager和Node Manager全部运行在同一台主机上,因此部署过程中只需要一台主机。操作系统:CentOS7.31. 准备环境1.1 ...原创 2018-05-22 14:36:38 · 330 阅读 · 0 评论 -
[Hadoop] Hive 外部表
创建数据库hive> CREATE DATABASE test;hive> USE test;创建表hive> CREATE EXTERNAL TABLE t1( > id INT, > name STRING, > age INT, > country STRING COMMENT 'country of origina...原创 2018-05-16 09:42:40 · 394 阅读 · 0 评论 -
[Hadoop] Hive查询报错“Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask”
问题解决:hive> set hive.exec.max.dynamic.partitions.pernode=500;hive.exec.max.dynamic.partitions.pernode默认值100。原创 2018-05-16 14:52:46 · 4563 阅读 · 0 评论 -
[Hadoop] Sqoop 从MySQL导入数据到hive表报错“Could not load org.apache.hadoop.hive.conf.HiveConf”解决
Sqoop从MySQL导入数据到Hive表报错:ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.[hadoop@hadoop01 ~]$ sqoop create-hive-table --connect jdbc...原创 2018-06-27 09:45:21 · 1264 阅读 · 0 评论 -
[Hadoop] Sqoop实现hive和mysql数据互导
业务场景:MySQL有两张表,城市表city_info,产品表product_info;Hive里有一张表,用户点击数据表user_click;要求:计算每个地区(城市归属于地区,例如上海属于华东区)热度Top3的产品名称和点击数量等信息,然后要把计算的结果导出到MySQL中作为可视化使用。MySQL已有表:mysql> use db_1;mysql> select * from c...原创 2018-06-27 10:18:07 · 389 阅读 · 0 评论 -
[Hadoop] Hive - dual表的使用
创建dual表hive> create table dual;FAILED: SemanticException [Error 10043]: Either list of columns or a custom serializer should be specifiedhive> create table dual(x string);OKTime taken: 0.456...原创 2018-06-27 10:37:55 · 3287 阅读 · 0 评论 -
[Hadoop] Hive表的file_format参数
Hive官网 1. file_formatHive的建表语句里面有一个STORED AS file_format结合使用的方法,指定hive的存储格式。不仅能节省hive的存储空间,还可以提高执行效率。file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.file...原创 2018-08-14 22:19:33 · 5837 阅读 · 0 评论 -
[Hadoop] Hadoop中压缩的使用
1. 常用缩格式压缩格式需要关注两个因素:压缩比(Compression Ratio): Snappy < LZ4 < LZO < GZIP < BZIP2其中,BZIP2的压缩比大概是30%,Snappy/LZ4/LZO的压缩比大概是50%.解压速度(Compression Speed): Snappy > LZ4 > LZO > G...原创 2018-08-13 17:51:45 · 1714 阅读 · 0 评论 -
[Hadoop] Linux用户和Hadoop用户权限
1. 新建Linux用户组和用户使用root用户登录Linux服务器,新建用户组和用户[root@vm ~]# groupadd test[root@vm ~]# useradd -d /usr/test/ -m test -g test2. 新建HDFS用户用户使用HDFS超级用户在HDFS上为新建的Linux用户创建家目录文件夹,并赋予权限[root@vm ~]...原创 2018-10-23 15:04:22 · 3732 阅读 · 0 评论