空中的鱼1987-CSDN博客

原创 kafka docker 安装

如下方式比较方便，kafka和zk都打在一起了。把下面配置存成docker-compose.yml文件。version: '2'services: zookeeper: image: confluentinc/cp-zookeeper:6.2.0 hostname: zookeeper container_name: zookeeper ports: - "2181:2181" environment: ZOOKEEPER_CLIE

2021-09-22 11:18:42 194

原创 Akka2.5.x升级到2.6.x

Akka2.5.x升级到2.6.x背景系统集群化后，需要使用2.6.7+版本的脑裂功能模块。注意：Akka2.6已经不支持scala2.11了。build.sbt配置val AkkaVersion = "2.6.14"libraryDependencies ++= Seq( "com.typesafe.akka" %% "akka-cluster" % AkkaVersion, "com.typesafe.akka" %% "akka-discovery" % AkkaVersion,

2021-04-22 09:50:55 779 1

原创 Akka集群脑裂

集群脑裂问题和影响系统集群化后，出现物理机崩溃的情况，或者节点奔溃，如果没有从集群成员中剔除，系统会一直尝试连接。而网络分区、以及进程高负载无响应情况，则会引发脑裂现象。当一个节点观察到另外节点异常时，系统无法判定它暂时性故障还是永久性故障，所以我们把这些情况一起处理。脑裂会把集群划分成多个集群，且独立运行，如果使用了类似Singleton唯一性业务的功能，就会有问题。期望发生崩溃时，我们希望集群立即把崩溃的节点从成员资格中剔除；网络分区或者无响应时，我们希望等待一会，再检查节点是否治愈，如果治愈

2021-04-21 09:22:38 468

原创 Scala代码检查

Scala代码检查引言通常我们用Sonar做代码检查，本文将阐述如何使用sonar做sbt scala工程的代码检查。Sonar安装起先我从官网下载Sonar安装，发现有很多版本，而且有元数据库的依赖（新版本不支持Mysql），其中自带的elasticsearch也遇到问题（不能在root账户下启动），花了半天时间才安装好，很费事。建议Docker安装，sonar-scala-docker有比较详细的说明。大致步骤：docker pull mwizner/sonarqube-scala-plug

2020-09-29 17:21:03 501

原创 Akka Routing

Akka Routing引言Akka分布式集群组件中对Routing做了简单介绍，本文将对Routing做更详细的说明。概念上篇文章中说Routing由Router和Routee组成，可以理解成Router是个actor，负责接收外界消息，然后根据一定的策略把消息分发给Routee，Routee负责真实的运算。值得注意的是Router是透明的，Router消息转发给Routee，Routee可以直接给sender（非Router）返回消息，后边举例子说明。对比下Group Router和Pool

2020-09-25 17:55:37 164

原创部署Lagom工程到k8s

Run a lagom project on Kubernetes本文描述了如何将一个lagom工程部署到k8s，分如下几个部分讲述：选择lagom的理由准备配置制作镜像发布测试其他说明选择lagom的理由Lagom framework是一个集成ES/CQRS的微服务框架，但是真正使用的时候不一定非要用CQRS，个人觉得CQRS适合在高并发维护状态的业务场景下使用。普通情...

2020-03-20 14:11:58 345 3

原创创建一个kubernetes单机环境

Create a single node Kubernetes cluster on Mac本文描述了如何使用docker desktop创建一个kubernetes单机开发测试环境。分如下几个步骤。下载docker官网下载最新版本docker desktop，并安装。修改镜像加速地址建议使用阿里镜像仓库，使用自己的账号登录和查看。settings - docker engine 修改...

2020-03-20 14:10:29 688

原创 Kudu总结

介绍Kudu集HDFS的顺序读和HBASE的随机读于一身，同时具备高性能的随机写，以及很强大的可用性（单行事务，一致性协议），支持Impala spark计算引擎。

2017-04-27 15:48:00 8798

原创 kudu1.3.0版本信息

新特性增加了kerberos安全认证，可以通过kerberos tickets或者keytabs文件认证。此新特性是个可选项，推荐在部署环境中增加安全机制。增加了Transport Layer Security（TLS）网络安全传输协议，kudu将会对任意client和server间的信息通信进行加密。默认加密是开启的，无论client或者server端都可以决定是否启用加密。增加了粗粒度服务

2017-03-31 17:41:04 1622

原创 kudu1.2.0版本信息

新特性kudu clients和servers可以编辑用户的数据，例如log信息，java的异常信息和状态信息。但用户的元数据是不可编辑的，例如表名，字段名，分区边界。默认是可编辑的，但可以通过设置log_redact_user_data=false关闭。kudu一致性保证的能力大幅度提升了：每个副本都会track它们的 safe timestamp，这个时间戳是最大时间戳，在这个时间戳上读

2017-03-06 18:20:27 1020

原创 kudu1.1.0版本信息

新特性python API升级，具备JAVA C++client一样的功能（从0.3版本直接升级到1.1），主要的点如下： 1.1. 改进了Parial Row的语义 1.2. 增加了range partition支持 1.3. 提供了 scan api 1.4. 增强predicate支持 1.5. 支持所有kudu的类型，包括datetime.datetime转化成UNIXTIME_

2017-03-06 15:07:07 1374

原创机器学习学习资料

数据挖掘，深度学习，神经网络学习资料

2016-09-14 12:45:41 1075

原创 apache eagle 安装

Apache eagle installing介绍Apache eagle 目前0.4.0孵化版本已经可用，而新的0.5.0预计在2016年11月份发布。个人使用下来，主要有如下用处：- 监控敏感数据或者目录，监控操作次数- 监控hive表字段操作- 监控oozie coodinator任务情况- 监控警告可以是eagle自身存储、mail、kafka

2016-08-29 18:55:29 5575 9

原创 Spark StringIndexer and IndexToString usage

Spark StringIndexer 和 IndexToString 使用方法

2016-08-18 23:01:47 4536

原创 hadoop-3.0新特性

Hadoop 3.0中引入纠编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等等。

2016-08-10 15:49:51 13171

原创 aggregate vs treeAggregate

aggregate与treeAggregate对比

2016-08-04 17:16:53 2410

原创将博客搬至CSDN

将博客搬至CSDN

2016-08-02 16:23:01 97

原创将博客搬至CSDN

2016-08-02 16:23:01 64

原创 cloudera hue编译

hue编译3.10版本新特性hue3.10版本editor有很大的变化,有几个比较有用的新特性. - editor支持sql格式化,单词自动填补 - ‘${PARAM}’参数自动添加输入窗口 - editor保存的sql可以直接在workflow中使用(原先editor与workflow是独立,如果workflow需要使用editor save的sql,需要将sql保存到有权限的HDFS目

2016-08-02 16:10:33 2670 1

原创 hive相关元数据迁移（mysql）

mysqldump -hhost -uroot -ppasswd sentry > /tmp/sentry.sql create database sentry DEFAULT CHARACTER SET utf8; grant all on sentry.* TO 'sentry'@'%' IDENTIFIED BY 'sentry'; flush PRIVILEGES;

2016-07-13 17:30:31 1606

原创 hive dynamic partitions insert java.lang.OutOfMemoryError: Java heap space

动态分区问题，如果数据量大或者当动态分区大甚至只有十几个时，会出现如下异常：2015-10-23 16:43:54,165 INFO [fetcher#10] org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl: assigned 20 of 34 to spark-03:13562 to fetcher#10201

2016-07-13 17:30:24 1420

原创 yarn NullPointerException

yarn重启后，部分nm启动不了，报空指针问题2015-03-26 07:41:00,367 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.LocalizedResource: Resource hdfs://:8020/user/hive/.staging/job_1426073522130

2016-07-13 17:30:14 943

原创 mapreduce mapper access security hbase

环境：security cdh 5.2.0security hbase启动mapreduce的账户为hive或者others（非hbase），如下假设以bi账户为例出发点：mapper/reduce程序中读取hbase中数据，或者写入hbase数据踩过的坑：在mapreduce的job创建过程中加入如下认证代码UserGroupInformation.s

2016-07-13 17:30:07 427

原创 sentry服务后，几个权限问题

以账户bi为例问题一：账户bi beeline ldap后，对于外联表需要外联/user/bi目录下的数据。解决：根据sentry文档，需要给/user/bi授权uri ALL权限。GRANT ALL ON URI 'hdfs://172.20.0.71:8020/user/bi' TO ROLE user_bi_all_role;解决之问题二：账户bi运行mapreduce需要读取

2016-07-13 17:29:59 7446

原创 cloudera新增用户权限配置

目标：给各个业务组提供不同用户及用户组，并有限制的访问hdfs路径，及hive数据库。前提：clouderacloudera managerkerberosldapsentry问题与解决：hive client直走hive的本地模式，没有经过hiveserver2，所以此种方式能访问所有的数据库，具有超级管理员权限；考虑使用beeline形式。登陆

2016-07-13 17:29:52 3063

原创 hive集成LDAP

cloudera manager hive- sevice wide - advanced-Hive Service Advanced Configuration Snippet (Safety Valve) for hive-site.xml hive.server2.authentication LDAP hive.server2.authentication.ldap

2016-07-13 17:29:44 2364

原创 sentry配置

当前cdh版本为5.2.0，且通过cloudera manger来管理集群。选择sentry配置方式，file or db。file形式（sentry-provider.ini），存于hdfs上。选择group mapping方式，有HadoopGroupResourceAuthorizationProvider（正式环境中）、LocalGroupResourceAuthorizatio

2016-07-13 17:29:35 2088

原创 impala HA

目的：为impala jdbc提供统一的接口，作用参照http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/impala_proxy.html步骤：安装haproxy选择一台非impalad的机器安装haproxy yum install haproxy编辑/etc/haproxy/h

2016-07-13 17:29:24 1521

原创 impala集成LDAP

目的：为解决kerberos安全机制下的impala，resin cache kerberos tgt maxrenewlife天失效问题。说明：impala启用LDAP后，会优先选择LDAP用户密码认证，当LDAP认证失败时自动选择kerberos安全认证。步骤：关闭防火墙，设置开机不启动防火墙sudo /etc/init.d/iptables statussudo /etc/

2016-07-13 17:29:15 1685

原创 security cdh mapreduce access hbase

执行mapreduce的用户必须是可以访问hdfs相应目录和执行mapreduce的账户，例如hive。指定hive的节点kinit获取执行权限在mapreduce main代码中加入访问hbase的权限，例如：import java.io.IOException;import org.apache.hadoop.hbase.HBaseConfiguration;import org.

2016-07-13 17:29:08 500

原创 hive gateway(client) configuration

配置hive gateway机器Caused by: MetaException(message:Could not connect to meta store using any of the URIs provided. Most recent failure: org.apache.thrift.transport.TTransportException: GSS initiate fai

2016-07-13 17:29:00 1902

原创 hcatalog读取hive数据并写入hive

参考http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_table_access_mapreduce.htmlhttps://github.com/cloudera/hcatalog-examples.git命令：for jarfile in `ls /logdata/CDH-5.2

2016-07-13 17:28:52 4094

原创 CDH5.0.2升级至CDH5.2.0

升级需求1.为支持spark kerberos安全机制2.为满足impala trunc函数3.为解决impala import时同时query导致impala hang问题升级步骤参考http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation_upgrade.html

2016-07-13 17:28:43 891

原创 hive并行导入数据锁问题

hive同时load数据时，即使是不同分区，也会lock表，conflicting lock present for ymds_logs@ymds_hadoop mode EXCLUSIVEhttp://www.cnblogs.com/ggjucheng/archive/2013/01/16/2862749.html解决方法：临时设置set hive.support.concurren

2016-07-13 17:28:35 965

原创 impala测试报告

机器环境：4个slave节点10.200.187.86 cslave1 4核 3G10.200.187.87 cslave2 2核 4G10.200.187.88 cslave3 2核 4G10.200.187.89 cslave4 2核 6G测试效果：[img][/img]总结：1.在内存够用并且是简单sql条件下，impala相比hive执行效率高很多，简单的sql在百万

2016-07-13 17:28:24 729

原创 hive常用命令

整理一下，用的时候照着贴就行了。1.hive数据导出将select的结果放到本地文件系统中INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;将select的结果放到hdfs文件系统中INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* F

2016-07-13 17:28:17 1174

原创 hue beeswax权限管理

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_sentry.html条件：Kerberos安全认证（使用cm配置安全认证后，hive自动也添加了认证，所以hive认证配置http://www.cloudera.com/content/cl

2016-07-13 17:28:07 1563 1

原创 cloudera client集群部署

一般我们使用使用client机器访问集群，而不会直接在hadoop节点中使用。在client机器上，我们可以部署一些应用，或者导数程序。若使用CDH及CM，那client机器就使用CM进行添加。与通常增加新节点一样，只是在最后只选择gateway服务即可。client的段的xml配置，以及kerberos安全配置CM会自动生成。

2016-07-13 17:27:58 513

原创 cloudera manager kerberos配置

CDH5.1.0前的版本，可以通过cloudera manager各种配置或者手动修改etc下配置文件来配置，从CDH5.1.0后貌似clodera manager配置很简单，在界面的‘Administrator’下直接修改配置即可。若使用CDH版本hadoop，建议使用cm来配置kerberos。。。。有需求，我就写吧，赖的动。安装kerberos可以参考：http://www

2016-07-13 17:27:49 462

原创 CDH5安装

CDH安装有很多方式：tar包安装，从官网上下载tar包，此种方式类似apache版本hadoop，配置和部署相对来说麻烦。cloudera manager parcels安装，此种方式最方便、最省事，但如果是国内网的话，期间下载包会非常慢，而且每个节点分别下载。建议直接在官网下载rpm包，手动分发到各个节点yum localinstall安装好后，再使用cloudera manager安装

2016-07-13 17:27:40 536

Web前端技术（一）_JS

想换个iteye空间背景，楞是没找到在哪设置