Hadoop
tom_fans
这个作者很懒,什么都没留下…
展开
-
Kafka-connect JDBC Source Connector
kafka-connect在连接MySQL的时候可以看上一篇的文章,通过https://debezium.io 开发的MySQL connector jar来抽取MySQL binlog. 但是对于像ORACLE, SQL SERVER等数据库,没有一个很好的开源JAR来处理,https://debezium.io公司也开发了相关的数据库的JAR,有些还在开发当中,有些操作非常复杂,我也没有去...原创 2020-04-03 18:32:16 · 1782 阅读 · 0 评论 -
Spark使用log4j记录日志,并在Yarn WebUi显示
spark on yarn在执行的时候,开发人员通常希望能够单独使用log4j来记录自己的日志。一般来说当我们使用System.out.println的时候,日志会输出在stdout,而且其他的日志会显示在stderr里面。那么如何使用log4j记录日志并显示在自己的日志文件中,并在Yarn WebUI呢?我们使用spark默认自带的pi程序来作为例子。/data/spark-2.4.3...原创 2020-03-26 18:22:51 · 1273 阅读 · 0 评论 -
CDH Disable kerberos
搜索每个服务是否有Kerberos,然后选择simple,重启服务会有几个错误:1. 之前HDFS的http端口改变为了小于1024,因此无法启动了,需要还原为原来的50007之类的端口。2. HBASE启动会报错,因为默认/hbase目录在ZK的权限为:[zk: localhost:2181(CONNECTED) 13] getAcl /hbase'world,'anyone:...原创 2018-12-25 13:14:45 · 409 阅读 · 0 评论 -
azkaban调度器
1. azkaban源码编译这个部分比较简单,根据官方文档的命令编译即可,大概需要20分钟编译时间。# Build Azkaban./gradlew build# Clean the build./gradlew clean# Build and install distributions./gradlew installDist# Run tests./gradle...原创 2019-04-03 17:21:49 · 498 阅读 · 0 评论 -
Hive/Impala/Hbase/Spark Kerberos
使用hadoop Kerberos有几个地方需要注意,避免真实环境老是有问题:1. 我以前使用IP地址构建集群(虽然也用了DNS解析),但是有时候你直接通过主机名+DNS解析来做集群,这2者从我实际测试来看是有区别的,使用IP没有任何问题,但是使用DNS解析,开启kerberos总是会有些许问题,因此如果使用DNS解析,建议客户端连接kerberos的主机把集群的IP和主机名写入/etc/ho...原创 2018-12-25 10:11:05 · 835 阅读 · 0 评论 -
CDH集成YCSB测试工具
Cloudera Lab 在2016.7已经经YCSB 0.10工具集成了,也就是我们不需要通过安装的去安装YCSB了,只需要下载parcel,然后推送至服务器即可。parcel下载地址:http://archive.cloudera.com/cloudera-labs/ycsb/parcels/latest/下载完成之后,放入自己的YUM服务器,然后通过cloudera原创 2017-07-04 13:42:52 · 1025 阅读 · 0 评论 -
Oozie API调用Hue JOB
package com.isesol.zeppelin;import java.util.Properties;import org.apache.oozie.client.OozieClient;import org.apache.oozie.client.WorkflowJob.Status;public class oozie {publi原创 2017-06-30 10:15:48 · 1627 阅读 · 0 评论 -
HBASE Rowkey filter
HBASE通过Rowkey可以直接定位行,速度很快,在filter中,有2个API可以过滤主键:1. RowFilter 行过滤器, 依靠行键来过滤 Scan scan = new Scan(); Filter rowfilter = new RowFilter(CompareOp.EQUAL, new BinaryPrefixComparator(Bytes.原创 2017-06-30 10:14:21 · 1745 阅读 · 0 评论 -
MapReduce读写HBASE
import java.io.IOException;import java.util.ArrayList;import java.util.List;import java.util.StringTokenizer;import java.util.Vector;import org.apache.hadoop.hbase.mapreduce.TableReducer;i原创 2017-06-30 10:09:23 · 440 阅读 · 0 评论 -
Hbase插入参数测试与对比
HBase读写性能和几个参数有密切关系,比如cache和batch会影响读, 而write buffer会影响写,另外除了参数会影响,在程序里怎么处理也极大的影响插入性能,诸如List比一条一条put性能是否要高呢? 网上大部分言论是否正确呢?今天我会通过程序读取HBASE,然后再原封不动的写入另外一张表,对比各个参数的组合对插入的影响。HTable htable1 = new HTabl原创 2017-06-30 17:05:28 · 775 阅读 · 0 评论 -
HIVE外部表到底损失多少性能
我们经常说HIVE外部表比内部表要慢,到底是为什么? 以HBASE为例,如果把HIVE作为一个HBASE客户端的查询工具,语句转义之后发到HBASE,HBASE返回数据,按理不至于慢很多,毕竟只多做了一层SQL到HBASE的语句的转义。 既然事实却是慢,那么我们就可以认为HIVE外部表不能这么理解,应该还有其他的东西在阻碍HIVE外部表的性能,毕竟HIVE是走MAPREDUCE。hbas原创 2017-06-30 10:14:53 · 2944 阅读 · 2 评论 -
Hbase compact以及split跟踪
为了准确了解HBASE内部工作原理,我们需要做一些测试,在大量数据插入的情况下,HBASE内部到底有什么表现? 比如插入速度, hstore compact,split等相关活动,了解了这些才能更好的维护HBASE系统本身。此次测试会有几轮,所以测试到哪里就写到哪里,我随便找了一张大概120W来的表,我会写一个mapreduce任务,来读取这张表,再写入另外一个测试表: test2,原创 2017-06-30 10:13:48 · 1931 阅读 · 1 评论 -
HBASE性能测试
之前测试过HBASE的参数对性能影响,今天的测试主要针对写吞吐量,通过对比不同客户端的数量,以及插入量,来看看HBASE写的情况下,大概有多少每秒插入。测试硬件:8vcore, 32G内存 , 8台机器, 5个nodemanager/region server ,大家可能知道每个map,reduce 默认1个 vcores,1G内存 很显然,我一共40个vcores, 所以最多也只有39原创 2017-07-02 12:47:06 · 1752 阅读 · 0 评论 -
一次网络异常的Hadoop trouble shooting 过程
实际来说,这个案例大概是1年半之前发生的,在我上一家公司,整个集群大概60个节点, 机器配置大概是128G,24vcores,1T*4硬盘。 因为要迁移,也就是从一个机房迁移到另外一个机房。这里对Hadoop 迁移不做具体描述,当时发生一件事,就是我们新机房的HADOOP和老机房的不管从硬件,还是从软件基本是一样的,但是在测试阶段发现,之前正常的JOB或者说程序,在新Hadoop上有时候正原创 2017-07-02 17:37:35 · 820 阅读 · 0 评论 -
Spark读写HBASE
scala访问HBASE通常2种方式,一种是使用SPARK方式读取HBASE数据直接转换成RDD, 一种采用和JAVA类似的方式,通过HTable操作HBASE,数据获取之后再自己进行处理。 这2种方式区别应该是RDD是跑在多节点通过从HBASE获取数据,而采用HTable的方式,应该是串行了,仅仅是HBASE层面是分布式而已。1. 转换为RDDpackage com.isesol.s原创 2017-06-30 10:16:57 · 794 阅读 · 0 评论