黄刚的技术博客

每天进步一点点,自我实现

Hive表生命周期管理

Hive数据仓库中随着越来越多业务方的使用,会产生非常多的库表。如何对数据生命周期进行管理成了很重要的工作。 经过验证发现,通过对Hive表执行以下语句会详细展现该表的很多统计信息,其中就有lastAccessTime。 (前提是该执行用户必须有对应表所在hdfs文件目录的读权限) ...

2018-01-11 13:42:02

阅读数 2060

评论数 0

机器学习平台一期概要设计

背景介绍 随着大数据技术的日趋成熟,很多互联网企业都积累了海量的数据资产。如何利用这些数据,充分发掘其价值逐渐成为各个公司亟待解决的新难题。其中机器学习已经被业界证明是十分有用的数据分析与挖掘手段。学术界对机器学习方向的研究已经持续数十年,很多算法已比较成熟。虽然不停有新的改进,...

2017-10-18 13:53:36

阅读数 1765

评论数 3

Apache Kudu TabletServer迁移

Kudu集群tablet server迁移 1、在cloudera manager 界面上停止该节点的tablet server角色服务 2、通过脚本工具removeNode.sh,从kudu集群中删除该节点的所有tablet数据,使kudu集群自动选取其他节点替换该节点的服务 ...

2017-09-15 09:33:49

阅读数 1261

评论数 0

Apache Kudu主节点(Master)迁移

提前修改机器上kudu账号可以登录,(/etc/passwd),之后都是以kudu执行命令     1、将每个master的记录下来     kudu fs dump uuid --fs_wal_dir=/home/data/kudu-master --fs_data_dirs=/ho...

2017-08-17 13:55:28

阅读数 1738

评论数 1

实时计算平台设计

设计目标        传统的离线计算会存在数据反馈不及时,很难保证很多急需实时数据做决策的场景。同时,如果各个业务方自己既负责开发实现各种实时计算程序,同时还需要维护一套实时计算软件环境,不仅效率低效,对公司的开发资源、硬件资源也是极大的浪费。所以为公司提供统一的实时计算平台,提升业务团队...

2017-03-18 09:03:37

阅读数 5317

评论数 0

配置社区版spark运行在cdh yarn

1、下载社区版本spark编译包,一般选择和cdh版本含的hadoop版本一致的社区编译版spark; 2、在某台服务器上解压spark安装包 3、将SPARK_HOME环境变量加入/etc/profile,然后执行 source /etc/profile使其生效; 4、删除软连...

2017-03-15 16:16:52

阅读数 1347

评论数 0

解决hive元信息乱码的问题

1、修改hive元信息库为utf8编码,然后表和字段也是 ALTER TABLE DBS DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci; ALTER TABLE TBLS DEFAULT CHARACTER SET utf...

2016-12-05 14:27:23

阅读数 1808

评论数 0

大数据平台权限设计

整体思路 1、整合Cloudera的sentry,原因是其本身可以嵌入hive、impala、kafka等代码,提供统一的权限控制逻辑; 2、由于权限包括用户认证和操作授权,需要改造sentry的一个模块代码编译后替换掉原有的包,用户认证sentry官方建议kerboers和ldap,我...

2016-11-25 13:50:01

阅读数 2922

评论数 0

Hive SQL Syntax for Use with Sentry

Sentry permissions can be configured through Grant and Revoke statements issued either interactively or programmatically through the HiveServer2 SQL ...

2016-11-25 13:47:26

阅读数 496

评论数 0

Untangling Apache Hadoop YARN, Part 1: Cluster and YARN Basics

In this multipart series, fully explore the tangled ball of thread that is YARN. YARN (Yet Another Resource Negotiator) is the resource management...

2016-10-11 09:48:57

阅读数 421

评论数 0

【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

摘要: 在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。 本文根据阿里云高级技术专家李金波在首...

2016-08-10 09:04:07

阅读数 756

评论数 0

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

导读: 整体架构数据采集数据存储与分析数据共享数据应用实时计算任务调度与监控元数据管理总结 一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。 先大概列一下互联网行业数据仓库、数据平台的用途: 整合公司所有业务数据,建立统一的...

2016-05-08 18:53:37

阅读数 3890

评论数 1

浅谈开源大数据平台的演变

一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性, 以及同时包含存储系...

2016-05-08 18:52:14

阅读数 363

评论数 0

编写dynamodb基于GSI的分页查询

主表结构(offline-archive.201604) msgid(主分区键,字符串), msg(字符串), topic(字符串), ts(long型时间戳) GSI二级索引(topic-ts-index) 项目键(topic) 排序键(ts)

2016-05-04 11:12:27

阅读数 1675

评论数 0

ClientId and groups recommendation

我们可以将每个应用的实例ID作为clientId赋值,这样出现问题可以很容易排查是来自哪台机器哪个进程导致的。 实例ID生成方法可以是IP:port(web应用)或者IP:hash(启动路径) So it just should be used in a way that works b...

2016-04-20 09:28:49

阅读数 338

评论数 0

利用kafka内建的特殊topic 做offsets 提交和检索

In Kafka releases through 0.8.1.1, consumers commit their offsets to ZooKeeper. ZooKeeper does not scale extremely well (especially for writes) when ...

2016-04-19 19:20:07

阅读数 2304

评论数 1

修改zookeeper jvm参数

在zkServer.sh中,增加以下参数: start)     echo  -n "Starting zookeeper ... "     if [ -f $ZOOPIDFILE ]; then       if kill -0 `cat $ZOOPIDFILE` >...

2016-04-18 20:58:48

阅读数 2783

评论数 0

Apache Kafka Security 101

TLS, Kerberos, SASL, and Authorizer in Apache Kafka 0.9 - Enabling New Encryption, Authorization, and Authentication Features Apache Kafka is freq...

2016-04-16 16:56:31

阅读数 3708

评论数 0

How to choose the number of topics/partitions in a Kafka cluster?

This is a common question asked by many Kafka users. The goal of this post is to explain a few important determining factors and provide a few simple...

2015-12-14 10:01:59

阅读数 627

评论数 0

flume ng简单例子

本例子来源于flume官方文档,主要演示部署flume agent单节点,接收信息然后控制台输出。 首先编辑配置文件,在conf目录中新建文件example.conf,然后添加以下内容: # example.conf: A single-node Flume configuration # N...

2015-11-18 10:39:20

阅读数 542

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭