自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 数据开发协作与埋点管理系统

埋点管理系统与埋点地图在介绍埋点管理系统之前,我们来回顾下,之前的埋点工作是怎么做的。从开发协作演化反思埋点管理协作流程0.1版本:上图是刚成立之初,在人员紧缺,数据开发的工程环境几乎为0的情况下,整个团队的协作流程:产品经理输出功能需求和数据需求 业务开发和数据开发分别承接对应的功能需求和数据需求的开发 数据需求和业务开发的需求是没法同步进行的,需要等待业务开发完,确认了最终的数据格式和数据标准,并且已经正常生产数据时,才开始介入开发。所以需要频繁去确认业务开发功能是否开发完毕

2020-09-20 01:11:26 863

原创 数据库之提升千倍的写性能优化探索

写性能的提升

2022-02-25 10:36:40 412

原创 0x01-什么是数据中台--来自一线程序员的土(di)味(dao)解读

数据中台,站在...

2021-01-29 21:46:00 340

原创 clickhouse小工具&小技巧收集汇总

0x01. 排查clickhouse问题找到问题发生的时间点,可以对照grafana中的资源监控来看时间点找/var/log/clickhouse-server/clickhouse-server[-err].log对应时间点的日志查看system.query_log/processes具体的一些动作,定位问题0x02. 琐碎的小技巧和系统表改名rename table ods_data.single_point_log_2 to ods_data.single_point_log on

2020-12-25 21:45:50 542

原创 使用clickhouse搭建2分片2副本的4节点集群

0x1 环境说明本人使用的环境debian9(ubuntu18类似),clickhouse的安装遵循官网的做法,本文不赘述。clickhouse的版本20.0.7.*以上zookeeper版本3.4.9及以上(clickhouse文档要求)0x2 环境配置搭建分布式集群需要zookeeper,zookeeper的安装请自行解决1. clickhouse中zookeeper配置/etc/clickhouse-server/config.xml中确保存在这样的配置,默认情况下,装完click

2020-12-25 21:13:06 1325

原创 Hive性能调优实战

https://search.jd.com/Search?keyword=hive%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98%E5%A...

2020-08-20 16:28:00 366

原创 安装基于HA模式的ALLUXIO(HDP版本)

1. 编译打包hdp版本的alluxiomvn -T 8 install -Phadoop-3 -Dhadoop.version=3.1.1.3.1.0.0-78...

2019-10-12 11:41:00 466

原创 SpringBoot DataSource集成Hive、Phoenix、Presto数据源(带Kerberos校验)

在数据中台的落地过程中,元数据管理经常需要和多个数据源进行交互,下面我们延时几个数据源1. HiveDataSource@Configuration@Enabl...

2019-09-18 12:09:00 1326

原创 Superset缓存配置

配置superset的config.pyCACHE_DEFAULT_TIMEOUT = 60 * 60 * 8 //设置缓存数据数据类型 CACHE_CON...

2019-09-12 17:00:00 473

原创 flume整合kafka,实现exactly one的数据采集

flume-kafka source配置flume同步kafka的数据需要配置以下几个配置type,数据源类型,如org.apache.flume.source...

2019-01-22 17:01:00 238

原创 spark dataframe 全局排名优化

spark提供给我们的全局排序,默认情况下只有spark-sql提供的窗口函数,但如果窗口是整个表eg:row_number() over(order by a)会...

2018-08-08 23:45:00 450

原创 hive-极致优化(二)-解释计划类别

/数据仓库/hive-极致优化-解释计划类别1. 解释计划计划种类在这里我们会讨论下面几种类型的解释计划select-from-whereselect-fu...

2018-08-02 19:11:00 233

原创 hive极致优化(一)-打开解释计划

/数据仓库/hive-极致优化-解释计划11. 读懂解释计划hivesql的运行同关系型数据库一样遵循一个逻辑。解释计划就是用来描述这个逻辑。读懂解释计划,就...

2018-07-31 17:17:00 250

原创 cloudera spark2.2 读写hbase

cloudera spark2.2 读写hbase例子host = 'bigdata-03,bigdata-05,bigdata-04'conf = { ...

2018-07-23 17:20:00 96

原创 结合docker,cloudera对快速部署贴近实际生产的大数据基础平台思考和探索实践...

2B场景,快速部署贴近实际生产的大数据基础平台探索Table of Contents1. 现状与思考1.1. 背景介绍1.2 例子1.2.1 hdfs...

2018-06-12 14:28:00 195

原创 时间同步-ntp服务器的搭建(docker版本)

introduce用于构建cdm所需要的ntp服务器镜像,实现宿主机和ntpserver同步,ntpserver于ntpclient的同步项目地址项目githu...

2018-06-07 15:28:00 693

原创 RDBMS变化数据设计,采集和接入大数据平台

变化的数据处理和捕获在数据爆发式增长的时代,记录数据变化和演变,探究内在规律并运用到生产实践中,驱动业务的增长成为这个时代主旋律。本文就如何记录数据变化,处理数据变...

2018-05-03 14:21:00 144

原创 Hive 新特性 LLAP

LLAP Overview Persistent Daemon Execution Engine Query Fragment Executio...

2018-02-12 10:55:00 330

原创 数据平台-推演单机到分布式应用

概述 最近看到一个在生产中运用的工具,用于同步不同来源的数据到hdfs,而且运用的较为广泛,但是业务反馈问题也颇多。所有的任务通过写脚本形式直接扔到特定的几台机子上...

2018-01-17 17:57:00 101

原创 数据平台-第二章-数据地图

数据地图数据地图在整个数据平台中,是一个manager的角色,也是一个顾问的角色。是一种图形化的数据管理工具,它提供了多层次的图形化展现,并具备各种粒度控制能力,满...

2018-01-15 22:31:00 168

原创 数据平台-第一章-数据质量提升

概述元数据为数据数据平台提供了一致的描述信息,描述系统的结构特征和静态特征,并作为控制性信息,控制并配置特定工具和进程运行,实现数据平台管理和维护的自动化处理。数据...

2018-01-11 13:47:00 368

原创 PA数据平台-第二章-系统改进设计思路

前言能够正常生产的系统就是必然有其的适用性,本着这个理念,在对系统的可能的调整上,是考虑兼容以前的逻辑上,在局部做了微调和新增一些必要的模块,下图是调整后的系统结构...

2018-01-05 17:22:00 269

原创 Hive-hiveSQL调优

前言很早以前也是写过hivesql优化分享,但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。勿赘言,影响HiveSQL性能有俩方面:SQL转...

2018-01-05 16:32:00 203

原创 SQL优化-第三章-监控与定位性能问题引发点

前言前面的章节我们聊到从体系结构,逻辑结构,表设计,索引,以及SQL语句都是可以优化的切入点,但是凡事如果能做到在事情发现前做到预防,是否发生能够快速定位,所以这里...

2018-01-02 21:10:00 103

原创 源码剖析-sqoop与datax的对比

前言在数据同步见过sqoop,datax,hdata,filesync,这四个工具。分析内部的实现逻辑各有巧思,也收获良多。Sqoop1和sqoop2 底层数据同...

2018-01-01 17:01:00 343

原创 SQL优化-第二章-从解释计划层面让SQL飞

前言在第一章,我们谈到加强数据库的设计层面认知可以让SQL的跑得更快,这章我们就谈论下如何从语言层面来提供优化SQL。如果说有一把钥匙能打开SQL优化的大门,那么解...

2017-12-31 22:47:00 111

原创 SQL优化-第一章-从设计层面让SQL飞

前言SQL优化,老生常谈,确也容易陷入一种思维误区。现谈及SQL化,众口必言,查询走索引,统计行数用count(列),不用count(*).必须用exists 代替...

2017-12-28 00:38:00 200 1

原创 PA数据平台-第一章-现有系统的剖析

1. 现有系统下图是现有收集各个移动端数据以及同步专业公司RDBMS数据库的系统结构图。1.1) 系统结构说明从上图可以看到,整个数据流的流转会经历下面几个环...

2017-12-27 17:25:00 358 1

原创 源码趣事-flume-队列动态扩容及容量使用

1. 前言最近在做数据平台 整个接入系统的重构,重点看了flume的高可高机制,在看memoryChannel源码的时候发现几个有意思的实现,刚好最近得空,写出来,...

2017-12-26 19:28:00 567

原创 摒弃低效的sql,利用hive的统计信息,快速收集表信息

前言 在衡量数据完整性,有个指标就是要统计表的行数。在监控集群的资源使用情况,需要统计表的占用空间。 在观察集群是否有很多小文件,需要统计占用空间/文件个数,可...

2017-11-22 14:36:00 344

原创 python 文本处理基础练习与思想

movies=["movies1","movies2","movies3"];print(movies[1])movies.insert(1,1975)m...

2016-03-20 15:33:00 75

原创 实战-不在害怕表关联(实现50亿*150亿数据量的表关联)

业务场景:从俩张海量的数据表抽取出大量的数据进行表关联,实现俩表信息的关联(统计单个用户的人均分发)。 首先看下我们要进行操作的俩张表...

2016-03-17 21:32:00 194

原创 分发概述

不管是一个移动互联网的入口,功能的规划,内容的填充都会影响到用户的对APP的兴趣。衡量一款软件是否做得好,最简单最有效的方式就是统计这块的应用的有效分发。什么...

2016-03-16 19:02:00 270

原创 从配置说tomcat和nginx调优

1 nginx优化 #nginx不同于apache服务器,当进行了大量优化设置后会魔术般的明显性能提升效果#nginx在安装完成后,大部分参数就已经是最优化...

2016-03-07 19:48:00 154

原创 GC 参数的调整和应用

调整目标 随着 Java 的演化,当初 C vs. Java 大战渐趋缓和: Java: 老兄! malloc / free 就是一名艺术? C: 好钢用到刀刃上...

2016-03-03 11:29:00 234

原创 JVM之锁

1 预备知识 1.1线程安全 一个对象被多个并发线程反复调用和修改,会一直产生正确的期望结果。 下面的就是一个...

2016-02-27 18:18:00 45

原创 JVM之GC篇

1 GC的算法 引用计数法 标记清除 标价压缩 复制算法 1.1引用计数法 引用计数器的实现很简单,对于一个对象A,...

2016-02-25 21:45:00 86

原创 ORACLE监控与优化点切入点简述

前言 得空就整理下针对业务系统最常见的性能问题点和优化点进行列举(目前不包含对解释计划解读)(针对对ORACLE有一定了解的) 查看手段生成AWR报表或者100...

2016-01-25 21:18:00 71

原创 关于hive优化的补充和重新描述

join优化 1 小表在保证在map段join过滤大量数据 2 自动开启map段join ,设置hive.mapjoin.smalltable.f...

2015-12-27 23:35:00 65

原创 Jetty 的工作原理以及与 Tomcat 的比较

Jetty 的基本架构 Jetty 目前的是一个比较被看好的 Servlet 引擎,它的架构比较简单,也是一个可扩展性和非常灵活的应用服务器,它有一个基本数...

2015-12-02 11:58:00 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除