- 博客(72)
- 收藏
- 关注
原创 数据开发协作与埋点管理系统
埋点管理系统与埋点地图在介绍埋点管理系统之前,我们来回顾下,之前的埋点工作是怎么做的。从开发协作演化反思埋点管理协作流程0.1版本:上图是刚成立之初,在人员紧缺,数据开发的工程环境几乎为0的情况下,整个团队的协作流程:产品经理输出功能需求和数据需求 业务开发和数据开发分别承接对应的功能需求和数据需求的开发 数据需求和业务开发的需求是没法同步进行的,需要等待业务开发完,确认了最终的数据格式和数据标准,并且已经正常生产数据时,才开始介入开发。所以需要频繁去确认业务开发功能是否开发完毕
2020-09-20 01:11:26 863
原创 clickhouse小工具&小技巧收集汇总
0x01. 排查clickhouse问题找到问题发生的时间点,可以对照grafana中的资源监控来看时间点找/var/log/clickhouse-server/clickhouse-server[-err].log对应时间点的日志查看system.query_log/processes具体的一些动作,定位问题0x02. 琐碎的小技巧和系统表改名rename table ods_data.single_point_log_2 to ods_data.single_point_log on
2020-12-25 21:45:50 542
原创 使用clickhouse搭建2分片2副本的4节点集群
0x1 环境说明本人使用的环境debian9(ubuntu18类似),clickhouse的安装遵循官网的做法,本文不赘述。clickhouse的版本20.0.7.*以上zookeeper版本3.4.9及以上(clickhouse文档要求)0x2 环境配置搭建分布式集群需要zookeeper,zookeeper的安装请自行解决1. clickhouse中zookeeper配置/etc/clickhouse-server/config.xml中确保存在这样的配置,默认情况下,装完click
2020-12-25 21:13:06 1325
原创 Hive性能调优实战
https://search.jd.com/Search?keyword=hive%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98%E5%A...
2020-08-20 16:28:00 366
原创 安装基于HA模式的ALLUXIO(HDP版本)
1. 编译打包hdp版本的alluxiomvn -T 8 install -Phadoop-3 -Dhadoop.version=3.1.1.3.1.0.0-78...
2019-10-12 11:41:00 466
原创 SpringBoot DataSource集成Hive、Phoenix、Presto数据源(带Kerberos校验)
在数据中台的落地过程中,元数据管理经常需要和多个数据源进行交互,下面我们延时几个数据源1. HiveDataSource@Configuration@Enabl...
2019-09-18 12:09:00 1326
原创 Superset缓存配置
配置superset的config.pyCACHE_DEFAULT_TIMEOUT = 60 * 60 * 8 //设置缓存数据数据类型 CACHE_CON...
2019-09-12 17:00:00 473
原创 flume整合kafka,实现exactly one的数据采集
flume-kafka source配置flume同步kafka的数据需要配置以下几个配置type,数据源类型,如org.apache.flume.source...
2019-01-22 17:01:00 238
原创 spark dataframe 全局排名优化
spark提供给我们的全局排序,默认情况下只有spark-sql提供的窗口函数,但如果窗口是整个表eg:row_number() over(order by a)会...
2018-08-08 23:45:00 450
原创 hive-极致优化(二)-解释计划类别
/数据仓库/hive-极致优化-解释计划类别1. 解释计划计划种类在这里我们会讨论下面几种类型的解释计划select-from-whereselect-fu...
2018-08-02 19:11:00 233
原创 hive极致优化(一)-打开解释计划
/数据仓库/hive-极致优化-解释计划11. 读懂解释计划hivesql的运行同关系型数据库一样遵循一个逻辑。解释计划就是用来描述这个逻辑。读懂解释计划,就...
2018-07-31 17:17:00 250
原创 cloudera spark2.2 读写hbase
cloudera spark2.2 读写hbase例子host = 'bigdata-03,bigdata-05,bigdata-04'conf = { ...
2018-07-23 17:20:00 96
原创 结合docker,cloudera对快速部署贴近实际生产的大数据基础平台思考和探索实践...
2B场景,快速部署贴近实际生产的大数据基础平台探索Table of Contents1. 现状与思考1.1. 背景介绍1.2 例子1.2.1 hdfs...
2018-06-12 14:28:00 195
原创 时间同步-ntp服务器的搭建(docker版本)
introduce用于构建cdm所需要的ntp服务器镜像,实现宿主机和ntpserver同步,ntpserver于ntpclient的同步项目地址项目githu...
2018-06-07 15:28:00 693
原创 RDBMS变化数据设计,采集和接入大数据平台
变化的数据处理和捕获在数据爆发式增长的时代,记录数据变化和演变,探究内在规律并运用到生产实践中,驱动业务的增长成为这个时代主旋律。本文就如何记录数据变化,处理数据变...
2018-05-03 14:21:00 144
原创 Hive 新特性 LLAP
LLAP Overview Persistent Daemon Execution Engine Query Fragment Executio...
2018-02-12 10:55:00 330
原创 数据平台-推演单机到分布式应用
概述 最近看到一个在生产中运用的工具,用于同步不同来源的数据到hdfs,而且运用的较为广泛,但是业务反馈问题也颇多。所有的任务通过写脚本形式直接扔到特定的几台机子上...
2018-01-17 17:57:00 101
原创 数据平台-第二章-数据地图
数据地图数据地图在整个数据平台中,是一个manager的角色,也是一个顾问的角色。是一种图形化的数据管理工具,它提供了多层次的图形化展现,并具备各种粒度控制能力,满...
2018-01-15 22:31:00 168
原创 数据平台-第一章-数据质量提升
概述元数据为数据数据平台提供了一致的描述信息,描述系统的结构特征和静态特征,并作为控制性信息,控制并配置特定工具和进程运行,实现数据平台管理和维护的自动化处理。数据...
2018-01-11 13:47:00 368
原创 PA数据平台-第二章-系统改进设计思路
前言能够正常生产的系统就是必然有其的适用性,本着这个理念,在对系统的可能的调整上,是考虑兼容以前的逻辑上,在局部做了微调和新增一些必要的模块,下图是调整后的系统结构...
2018-01-05 17:22:00 269
原创 Hive-hiveSQL调优
前言很早以前也是写过hivesql优化分享,但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。勿赘言,影响HiveSQL性能有俩方面:SQL转...
2018-01-05 16:32:00 203
原创 SQL优化-第三章-监控与定位性能问题引发点
前言前面的章节我们聊到从体系结构,逻辑结构,表设计,索引,以及SQL语句都是可以优化的切入点,但是凡事如果能做到在事情发现前做到预防,是否发生能够快速定位,所以这里...
2018-01-02 21:10:00 103
原创 源码剖析-sqoop与datax的对比
前言在数据同步见过sqoop,datax,hdata,filesync,这四个工具。分析内部的实现逻辑各有巧思,也收获良多。Sqoop1和sqoop2 底层数据同...
2018-01-01 17:01:00 343
原创 SQL优化-第二章-从解释计划层面让SQL飞
前言在第一章,我们谈到加强数据库的设计层面认知可以让SQL的跑得更快,这章我们就谈论下如何从语言层面来提供优化SQL。如果说有一把钥匙能打开SQL优化的大门,那么解...
2017-12-31 22:47:00 111
原创 SQL优化-第一章-从设计层面让SQL飞
前言SQL优化,老生常谈,确也容易陷入一种思维误区。现谈及SQL化,众口必言,查询走索引,统计行数用count(列),不用count(*).必须用exists 代替...
2017-12-28 00:38:00 200 1
原创 PA数据平台-第一章-现有系统的剖析
1. 现有系统下图是现有收集各个移动端数据以及同步专业公司RDBMS数据库的系统结构图。1.1) 系统结构说明从上图可以看到,整个数据流的流转会经历下面几个环...
2017-12-27 17:25:00 358 1
原创 源码趣事-flume-队列动态扩容及容量使用
1. 前言最近在做数据平台 整个接入系统的重构,重点看了flume的高可高机制,在看memoryChannel源码的时候发现几个有意思的实现,刚好最近得空,写出来,...
2017-12-26 19:28:00 567
原创 摒弃低效的sql,利用hive的统计信息,快速收集表信息
前言 在衡量数据完整性,有个指标就是要统计表的行数。在监控集群的资源使用情况,需要统计表的占用空间。 在观察集群是否有很多小文件,需要统计占用空间/文件个数,可...
2017-11-22 14:36:00 344
原创 python 文本处理基础练习与思想
movies=["movies1","movies2","movies3"];print(movies[1])movies.insert(1,1975)m...
2016-03-20 15:33:00 75
原创 实战-不在害怕表关联(实现50亿*150亿数据量的表关联)
业务场景:从俩张海量的数据表抽取出大量的数据进行表关联,实现俩表信息的关联(统计单个用户的人均分发)。 首先看下我们要进行操作的俩张表...
2016-03-17 21:32:00 194
原创 分发概述
不管是一个移动互联网的入口,功能的规划,内容的填充都会影响到用户的对APP的兴趣。衡量一款软件是否做得好,最简单最有效的方式就是统计这块的应用的有效分发。什么...
2016-03-16 19:02:00 270
原创 从配置说tomcat和nginx调优
1 nginx优化 #nginx不同于apache服务器,当进行了大量优化设置后会魔术般的明显性能提升效果#nginx在安装完成后,大部分参数就已经是最优化...
2016-03-07 19:48:00 154
原创 GC 参数的调整和应用
调整目标 随着 Java 的演化,当初 C vs. Java 大战渐趋缓和: Java: 老兄! malloc / free 就是一名艺术? C: 好钢用到刀刃上...
2016-03-03 11:29:00 234
原创 ORACLE监控与优化点切入点简述
前言 得空就整理下针对业务系统最常见的性能问题点和优化点进行列举(目前不包含对解释计划解读)(针对对ORACLE有一定了解的) 查看手段生成AWR报表或者100...
2016-01-25 21:18:00 71
原创 关于hive优化的补充和重新描述
join优化 1 小表在保证在map段join过滤大量数据 2 自动开启map段join ,设置hive.mapjoin.smalltable.f...
2015-12-27 23:35:00 65
原创 Jetty 的工作原理以及与 Tomcat 的比较
Jetty 的基本架构 Jetty 目前的是一个比较被看好的 Servlet 引擎,它的架构比较简单,也是一个可扩展性和非常灵活的应用服务器,它有一个基本数...
2015-12-02 11:58:00 92
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人