自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

空中的鱼

毛燥的孩子

  • 博客(266)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 kafka docker 安装

如下方式比较方便,kafka和zk都打在一起了。把下面配置存成docker-compose.yml文件。version: '2'services: zookeeper: image: confluentinc/cp-zookeeper:6.2.0 hostname: zookeeper container_name: zookeeper ports: - "2181:2181" environment: ZOOKEEPER_CLIE

2021-09-22 11:18:42 194

原创 Akka2.5.x升级到2.6.x

Akka2.5.x升级到2.6.x背景系统集群化后,需要使用2.6.7+版本的脑裂功能模块。注意:Akka2.6已经不支持scala2.11了。build.sbt配置val AkkaVersion = "2.6.14"libraryDependencies ++= Seq( "com.typesafe.akka" %% "akka-cluster" % AkkaVersion, "com.typesafe.akka" %% "akka-discovery" % AkkaVersion,

2021-04-22 09:50:55 779 1

原创 Akka集群脑裂

集群脑裂问题和影响系统集群化后,出现物理机崩溃的情况,或者节点奔溃,如果没有从集群成员中剔除,系统会一直尝试连接。而网络分区、以及进程高负载无响应情况,则会引发脑裂现象。当一个节点观察到另外节点异常时,系统无法判定它暂时性故障还是永久性故障,所以我们把这些情况一起处理。脑裂会把集群划分成多个集群,且独立运行,如果使用了类似Singleton唯一性业务的功能,就会有问题。期望发生崩溃时,我们希望集群立即把崩溃的节点从成员资格中剔除;网络分区或者无响应时,我们希望等待一会,再检查节点是否治愈,如果治愈

2021-04-21 09:22:38 468

原创 Scala代码检查

Scala代码检查引言通常我们用Sonar做代码检查,本文将阐述如何使用sonar做sbt scala工程的代码检查。Sonar安装起先我从官网下载Sonar安装,发现有很多版本,而且有元数据库的依赖(新版本不支持Mysql),其中自带的elasticsearch也遇到问题(不能在root账户下启动),花了半天时间才安装好,很费事。建议Docker安装,sonar-scala-docker有比较详细的说明。大致步骤:docker pull mwizner/sonarqube-scala-plug

2020-09-29 17:21:03 501

原创 Akka Routing

Akka Routing引言Akka分布式集群组件中对Routing做了简单介绍,本文将对Routing做更详细的说明。概念上篇文章中说Routing由Router和Routee组成,可以理解成Router是个actor,负责接收外界消息,然后根据一定的策略把消息分发给Routee,Routee负责真实的运算。值得注意的是Router是透明的,Router消息转发给Routee,Routee可以直接给sender(非Router)返回消息,后边举例子说明。对比下Group Router和Pool

2020-09-25 17:55:37 164

原创 部署Lagom工程到k8s

Run a lagom project on Kubernetes本文描述了如何将一个lagom工程部署到k8s,分如下几个部分讲述:选择lagom的理由准备配置制作镜像发布测试其他说明选择lagom的理由Lagom framework是一个集成ES/CQRS的微服务框架,但是真正使用的时候不一定非要用CQRS,个人觉得CQRS适合在高并发维护状态的业务场景下使用。普通情...

2020-03-20 14:11:58 345 3

原创 创建一个kubernetes单机环境

Create a single node Kubernetes cluster on Mac本文描述了如何使用docker desktop创建一个kubernetes单机开发测试环境。分如下几个步骤。下载docker官网下载最新版本docker desktop,并安装。修改镜像加速地址建议使用阿里镜像仓库,使用自己的账号登录和查看。settings - docker engine 修改...

2020-03-20 14:10:29 688

原创 Kudu总结

介绍Kudu集HDFS的顺序读和HBASE的随机读于一身,同时具备高性能的随机写,以及很强大的可用性(单行事务,一致性协议),支持Impala spark计算引擎。

2017-04-27 15:48:00 8798

原创 kudu1.3.0版本信息

新特性增加了kerberos安全认证,可以通过kerberos tickets或者keytabs文件认证。此新特性是个可选项,推荐在部署环境中增加安全机制。增加了Transport Layer Security(TLS)网络安全传输协议,kudu将会对任意client和server间的信息通信进行加密。默认加密是开启的,无论client或者server端都可以决定是否启用加密。增加了粗粒度服务

2017-03-31 17:41:04 1622

原创 kudu1.2.0版本信息

新特性kudu clients和servers可以编辑用户的数据,例如log信息,java的异常信息和状态信息。但用户的元数据是不可编辑的,例如表名,字段名,分区边界。默认是可编辑的,但可以通过设置log_redact_user_data=false关闭。kudu一致性保证的能力大幅度提升了: 每个副本都会track它们的 safe timestamp,这个时间戳是最大时间戳,在这个时间戳上读

2017-03-06 18:20:27 1020

原创 kudu1.1.0版本信息

新特性python API升级,具备JAVA C++client一样的功能(从0.3版本直接升级到1.1),主要的点如下: 1.1. 改进了Parial Row的语义 1.2. 增加了range partition支持 1.3. 提供了 scan api 1.4. 增强predicate支持 1.5. 支持所有kudu的类型,包括datetime.datetime转化成UNIXTIME_

2017-03-06 15:07:07 1374

原创 机器学习学习资料

数据挖掘,深度学习,神经网络 学习资料

2016-09-14 12:45:41 1075

原创 apache eagle 安装

Apache eagle installing介绍Apache eagle 目前0.4.0孵化版本已经可用,而新的0.5.0预计在2016年11月份发布。个人使用下来,主要有如下用处:- 监控敏感数据或者目录,监控操作次数- 监控hive表字段操作- 监控oozie coodinator任务情况- 监控警告可以是eagle自身存储、mail、kafka

2016-08-29 18:55:29 5575 9

原创 Spark StringIndexer and IndexToString usage

Spark StringIndexer 和 IndexToString 使用方法

2016-08-18 23:01:47 4536

原创 hadoop-3.0新特性

Hadoop 3.0中引入纠编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等等。

2016-08-10 15:49:51 13171

原创 aggregate vs treeAggregate

aggregate与treeAggregate对比

2016-08-04 17:16:53 2410

原创 将博客搬至CSDN

将博客搬至CSDN

2016-08-02 16:23:01 97

原创 将博客搬至CSDN

2016-08-02 16:23:01 64

原创 cloudera hue编译

hue编译3.10版本新特性hue3.10版本editor有很大的变化,有几个比较有用的新特性. - editor支持sql格式化,单词自动填补 - ‘${PARAM}’参数自动添加输入窗口 - editor保存的sql可以直接在workflow中使用(原先editor与workflow是独立,如果workflow需要使用editor save的sql,需要将sql保存到有权限的HDFS目

2016-08-02 16:10:33 2670 1

原创 hive相关元数据迁移(mysql)

mysqldump -hhost -uroot -ppasswd sentry > /tmp/sentry.sql create database sentry DEFAULT CHARACTER SET utf8; grant all on sentry.* TO 'sentry'@'%' IDENTIFIED BY 'sentry'; flush PRIVILEGES;

2016-07-13 17:30:31 1606

原创 hive dynamic partitions insert java.lang.OutOfMemoryError: Java heap space

动态分区问题,如果数据量大或者当动态分区大甚至只有十几个时,会出现如下异常:2015-10-23 16:43:54,165 INFO [fetcher#10] org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl: assigned 20 of 34 to spark-03:13562 to fetcher#10201

2016-07-13 17:30:24 1420

原创 yarn NullPointerException

yarn重启后,部分nm启动不了,报空指针问题2015-03-26 07:41:00,367 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.LocalizedResource: Resource hdfs://:8020/user/hive/.staging/job_1426073522130

2016-07-13 17:30:14 943

原创 mapreduce mapper access security hbase

环境:security cdh 5.2.0security hbase启动mapreduce的账户为hive或者others(非hbase),如下假设以bi账户为例 出发点:mapper/reduce程序中读取hbase中数据,或者写入hbase数据 踩过的坑:在mapreduce的job创建过程中加入如下认证代码UserGroupInformation.s

2016-07-13 17:30:07 427

原创 sentry服务后,几个权限问题

以账户bi为例问题一:账户bi beeline ldap后,对于外联表需要外联/user/bi目录下的数据。解决:根据sentry文档,需要给/user/bi授权uri ALL权限。GRANT ALL ON URI 'hdfs://172.20.0.71:8020/user/bi' TO ROLE user_bi_all_role;解决之问题二:账户bi运行mapreduce需要读取

2016-07-13 17:29:59 7446

原创 cloudera新增用户权限配置

目标:给各个业务组提供不同用户及用户组,并有限制的访问hdfs路径,及hive数据库。前提:clouderacloudera managerkerberosldapsentry问题与解决:hive client直走hive的本地模式,没有经过hiveserver2,所以此种方式能访问所有的数据库,具有超级管理员权限;考虑使用beeline形式。登陆

2016-07-13 17:29:52 3063

原创 hive集成LDAP

cloudera manager hive- sevice wide - advanced-Hive Service Advanced Configuration Snippet (Safety Valve) for hive-site.xml   hive.server2.authentication  LDAP  hive.server2.authentication.ldap

2016-07-13 17:29:44 2364

原创 sentry配置

当前cdh版本为5.2.0,且通过cloudera manger来管理集群。选择sentry配置方式,file or db。file形式(sentry-provider.ini),存于hdfs上。选择group mapping方式,有HadoopGroupResourceAuthorizationProvider(正式环境中)、LocalGroupResourceAuthorizatio

2016-07-13 17:29:35 2088

原创 impala HA

目的:为impala jdbc提供统一的接口,作用参照http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/impala_proxy.html步骤:安装haproxy选择一台非impalad的机器安装haproxy yum install haproxy编辑/etc/haproxy/h

2016-07-13 17:29:24 1521

原创 impala集成LDAP

目的:为解决kerberos安全机制下的impala,resin cache kerberos tgt maxrenewlife天失效问题。说明:impala启用LDAP后,会优先选择LDAP用户密码认证,当LDAP认证失败时自动选择kerberos安全认证。步骤:关闭防火墙,设置开机不启动防火墙sudo /etc/init.d/iptables statussudo /etc/

2016-07-13 17:29:15 1685

原创 security cdh mapreduce access hbase

执行mapreduce的用户必须是可以访问hdfs相应目录和执行mapreduce的账户,例如hive。指定hive的节点kinit获取执行权限在mapreduce main代码中加入访问hbase的权限,例如:import java.io.IOException;import org.apache.hadoop.hbase.HBaseConfiguration;import org.

2016-07-13 17:29:08 500

原创 hive gateway(client) configuration

配置hive gateway机器Caused by: MetaException(message:Could not connect to meta store using any of the URIs provided. Most recent failure: org.apache.thrift.transport.TTransportException: GSS initiate fai

2016-07-13 17:29:00 1902

原创 hcatalog读取hive数据并写入hive

参考http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_table_access_mapreduce.htmlhttps://github.com/cloudera/hcatalog-examples.git命令:for jarfile in `ls /logdata/CDH-5.2

2016-07-13 17:28:52 4094

原创 CDH5.0.2升级至CDH5.2.0

升级需求1.为支持spark kerberos安全机制2.为满足impala trunc函数3.为解决impala import时同时query导致impala hang问题升级步骤参考http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation_upgrade.html

2016-07-13 17:28:43 891

原创 hive并行导入数据锁问题

hive同时load数据时,即使是不同分区,也会lock表,conflicting lock present for ymds_logs@ymds_hadoop mode EXCLUSIVEhttp://www.cnblogs.com/ggjucheng/archive/2013/01/16/2862749.html解决方法:临时设置set hive.support.concurren

2016-07-13 17:28:35 965

原创 impala测试报告

机器环境:4个slave节点10.200.187.86 cslave1 4核 3G10.200.187.87 cslave2 2核 4G10.200.187.88 cslave3 2核 4G10.200.187.89 cslave4 2核 6G测试效果:[img][/img]总结:1.在内存够用并且是简单sql条件下,impala相比hive执行效率高很多,简单的sql在百万

2016-07-13 17:28:24 729

原创 hive常用命令

整理一下,用的时候照着贴就行了。1.hive数据导出 将select的结果放到本地文件系统中INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;将select的结果放到hdfs文件系统中INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* F

2016-07-13 17:28:17 1174

原创 hue beeswax权限管理

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Security-Guide/cdh5sg_sentry.html条件:Kerberos安全认证(使用cm配置安全认证后,hive自动也添加了认证,所以hive认证配置http://www.cloudera.com/content/cl

2016-07-13 17:28:07 1563 1

原创 cloudera client集群部署

一般我们使用使用client机器访问集群,而不会直接在hadoop节点中使用。在client机器上,我们可以部署一些应用,或者导数程序。若使用CDH及CM,那client机器就使用CM进行添加。与通常增加新节点一样,只是在最后只选择gateway服务即可。client的段的xml配置,以及kerberos安全配置CM会自动生成。

2016-07-13 17:27:58 513

原创 cloudera manager kerberos配置

CDH5.1.0前的版本,可以通过cloudera manager各种配置或者手动修改etc下配置文件来配置,从CDH5.1.0后貌似clodera manager配置很简单,在界面的‘Administrator’下直接修改配置即可。若使用CDH版本hadoop,建议使用cm来配置kerberos。。。。有需求,我就写吧,赖的动。安装kerberos可以参考:http://www

2016-07-13 17:27:49 462

原创 CDH5安装

CDH安装有很多方式:tar包安装,从官网上下载tar包,此种方式类似apache版本hadoop,配置和部署相对来说麻烦。cloudera manager parcels安装,此种方式最方便、最省事,但如果是国内网的话,期间下载包会非常慢,而且每个节点分别下载。建议直接在官网下载rpm包,手动分发到各个节点yum localinstall安装好后,再使用cloudera manager安装

2016-07-13 17:27:40 536

Web前端技术(一)_JS

Web前端技术(一)_JS 介绍了javascrip的历史 javascrip对象 操作dom节点等等ppt

2011-10-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除