林的BLOG-CSDN博客

原创数据开发协作与埋点管理系统

埋点管理系统与埋点地图在介绍埋点管理系统之前，我们来回顾下，之前的埋点工作是怎么做的。从开发协作演化反思埋点管理协作流程0.1版本：上图是刚成立之初，在人员紧缺，数据开发的工程环境几乎为0的情况下，整个团队的协作流程：产品经理输出功能需求和数据需求业务开发和数据开发分别承接对应的功能需求和数据需求的开发数据需求和业务开发的需求是没法同步进行的，需要等待业务开发完，确认了最终的数据格式和数据标准，并且已经正常生产数据时，才开始介入开发。所以需要频繁去确认业务开发功能是否开发完毕

2020-09-20 01:11:26 863

原创数据库之提升千倍的写性能优化探索

写性能的提升

2022-02-25 10:36:40 412

原创 0x01-什么是数据中台--来自一线程序员的土(di)味(dao)解读

数据中台，站在...

2021-01-29 21:46:00 340

原创 clickhouse小工具&小技巧收集汇总

0x01. 排查clickhouse问题找到问题发生的时间点，可以对照grafana中的资源监控来看时间点找/var/log/clickhouse-server/clickhouse-server[-err].log对应时间点的日志查看system.query_log/processes具体的一些动作，定位问题0x02. 琐碎的小技巧和系统表改名rename table ods_data.single_point_log_2 to ods_data.single_point_log on

2020-12-25 21:45:50 542

原创使用clickhouse搭建2分片2副本的4节点集群

0x1 环境说明本人使用的环境debian9（ubuntu18类似),clickhouse的安装遵循官网的做法，本文不赘述。clickhouse的版本20.0.7.*以上zookeeper版本3.4.9及以上（clickhouse文档要求）0x2 环境配置搭建分布式集群需要zookeeper,zookeeper的安装请自行解决1. clickhouse中zookeeper配置/etc/clickhouse-server/config.xml中确保存在这样的配置，默认情况下，装完click

2020-12-25 21:13:06 1325

原创 Hive性能调优实战

https://search.jd.com/Search?keyword=hive%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98%E5%A...

2020-08-20 16:28:00 366

原创安装基于HA模式的ALLUXIO（HDP版本）

1. 编译打包hdp版本的alluxiomvn -T 8 install -Phadoop-3 -Dhadoop.version=3.1.1.3.1.0.0-78...

2019-10-12 11:41:00 466

原创 SpringBoot DataSource集成Hive、Phoenix、Presto数据源(带Kerberos校验)

在数据中台的落地过程中，元数据管理经常需要和多个数据源进行交互，下面我们延时几个数据源1. HiveDataSource@Configuration@Enabl...

2019-09-18 12:09:00 1326

原创 Superset缓存配置

配置superset的config.pyCACHE_DEFAULT_TIMEOUT = 60 * 60 * 8 //设置缓存数据数据类型 CACHE_CON...

2019-09-12 17:00:00 473

原创 flume整合kafka，实现exactly one的数据采集

flume-kafka source配置flume同步kafka的数据需要配置以下几个配置type，数据源类型，如org.apache.flume.source...

2019-01-22 17:01:00 238

原创 spark dataframe 全局排名优化

spark提供给我们的全局排序，默认情况下只有spark-sql提供的窗口函数，但如果窗口是整个表eg：row_number() over(order by a)会...

2018-08-08 23:45:00 450

原创 hive-极致优化(二）-解释计划类别

/数据仓库/hive-极致优化-解释计划类别1. 解释计划计划种类在这里我们会讨论下面几种类型的解释计划select-from-whereselect-fu...

2018-08-02 19:11:00 233

原创 hive极致优化（一）-打开解释计划

/数据仓库/hive-极致优化-解释计划11. 读懂解释计划hivesql的运行同关系型数据库一样遵循一个逻辑。解释计划就是用来描述这个逻辑。读懂解释计划，就...

2018-07-31 17:17:00 250

原创 cloudera spark2.2 读写hbase

cloudera spark2.2 读写hbase例子host = 'bigdata-03,bigdata-05,bigdata-04'conf = { ...

2018-07-23 17:20:00 96

原创结合docker，cloudera对快速部署贴近实际生产的大数据基础平台思考和探索实践...

2B场景，快速部署贴近实际生产的大数据基础平台探索Table of Contents1. 现状与思考1.1. 背景介绍1.2 例子1.2.1 hdfs...

2018-06-12 14:28:00 195

原创时间同步-ntp服务器的搭建（docker版本）

introduce用于构建cdm所需要的ntp服务器镜像，实现宿主机和ntpserver同步，ntpserver于ntpclient的同步项目地址项目githu...

2018-06-07 15:28:00 693

原创 RDBMS变化数据设计，采集和接入大数据平台

变化的数据处理和捕获在数据爆发式增长的时代，记录数据变化和演变，探究内在规律并运用到生产实践中，驱动业务的增长成为这个时代主旋律。本文就如何记录数据变化，处理数据变...

2018-05-03 14:21:00 144

原创 Hive 新特性 LLAP

LLAP Overview Persistent Daemon Execution Engine Query Fragment Executio...

2018-02-12 10:55:00 330

原创数据平台-推演单机到分布式应用

概述最近看到一个在生产中运用的工具，用于同步不同来源的数据到hdfs，而且运用的较为广泛，但是业务反馈问题也颇多。所有的任务通过写脚本形式直接扔到特定的几台机子上...

2018-01-17 17:57:00 101

原创数据平台-第二章-数据地图

数据地图数据地图在整个数据平台中，是一个manager的角色，也是一个顾问的角色。是一种图形化的数据管理工具，它提供了多层次的图形化展现，并具备各种粒度控制能力，满...

2018-01-15 22:31:00 168

原创数据平台-第一章-数据质量提升

概述元数据为数据数据平台提供了一致的描述信息，描述系统的结构特征和静态特征，并作为控制性信息，控制并配置特定工具和进程运行，实现数据平台管理和维护的自动化处理。数据...

2018-01-11 13:47:00 368

原创 PA数据平台-第二章-系统改进设计思路

前言能够正常生产的系统就是必然有其的适用性，本着这个理念，在对系统的可能的调整上，是考虑兼容以前的逻辑上，在局部做了微调和新增一些必要的模块，下图是调整后的系统结构...

2018-01-05 17:22:00 269

原创 Hive-hiveSQL调优

前言很早以前也是写过hivesql优化分享，但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。勿赘言，影响HiveSQL性能有俩方面：SQL转...

2018-01-05 16:32:00 203

原创 SQL优化-第三章-监控与定位性能问题引发点

前言前面的章节我们聊到从体系结构，逻辑结构，表设计，索引，以及SQL语句都是可以优化的切入点，但是凡事如果能做到在事情发现前做到预防，是否发生能够快速定位，所以这里...

2018-01-02 21:10:00 103

原创源码剖析-sqoop与datax的对比

前言在数据同步见过sqoop，datax，hdata，filesync，这四个工具。分析内部的实现逻辑各有巧思，也收获良多。Sqoop1和sqoop2 底层数据同...

2018-01-01 17:01:00 343

原创 SQL优化-第二章-从解释计划层面让SQL飞

前言在第一章，我们谈到加强数据库的设计层面认知可以让SQL的跑得更快，这章我们就谈论下如何从语言层面来提供优化SQL。如果说有一把钥匙能打开SQL优化的大门，那么解...

2017-12-31 22:47:00 111

原创 SQL优化-第一章-从设计层面让SQL飞

前言SQL优化，老生常谈，确也容易陷入一种思维误区。现谈及SQL化，众口必言，查询走索引，统计行数用count(列），不用count(*).必须用exists 代替...

2017-12-28 00:38:00 200 1

原创 PA数据平台-第一章-现有系统的剖析

1. 现有系统下图是现有收集各个移动端数据以及同步专业公司RDBMS数据库的系统结构图。1.1) 系统结构说明从上图可以看到，整个数据流的流转会经历下面几个环...

2017-12-27 17:25:00 358 1

原创源码趣事-flume-队列动态扩容及容量使用

1. 前言最近在做数据平台整个接入系统的重构，重点看了flume的高可高机制，在看memoryChannel源码的时候发现几个有意思的实现，刚好最近得空，写出来，...

2017-12-26 19:28:00 567

原创摒弃低效的sql，利用hive的统计信息，快速收集表信息

前言在衡量数据完整性，有个指标就是要统计表的行数。在监控集群的资源使用情况，需要统计表的占用空间。在观察集群是否有很多小文件，需要统计占用空间/文件个数，可...

2017-11-22 14:36:00 344

原创 python 文本处理基础练习与思想

movies=["movies1","movies2","movies3"];print(movies[1])movies.insert(1,1975)m...

2016-03-20 15:33:00 75

原创实战-不在害怕表关联(实现50亿*150亿数据量的表关联)

业务场景：从俩张海量的数据表抽取出大量的数据进行表关联，实现俩表信息的关联（统计单个用户的人均分发）。首先看下我们要进行操作的俩张表...

2016-03-17 21:32:00 194

原创分发概述

不管是一个移动互联网的入口，功能的规划，内容的填充都会影响到用户的对APP的兴趣。衡量一款软件是否做得好，最简单最有效的方式就是统计这块的应用的有效分发。什么...

2016-03-16 19:02:00 270

原创从配置说tomcat和nginx调优

1 nginx优化 #nginx不同于apache服务器，当进行了大量优化设置后会魔术般的明显性能提升效果#nginx在安装完成后，大部分参数就已经是最优化...

2016-03-07 19:48:00 154

原创 GC 参数的调整和应用

调整目标随着 Java 的演化，当初 C vs. Java 大战渐趋缓和： Java: 老兄！ malloc / free 就是一名艺术？ C: 好钢用到刀刃上...

2016-03-03 11:29:00 234

原创 JVM之锁

1 预备知识 1.1线程安全一个对象被多个并发线程反复调用和修改，会一直产生正确的期望结果。下面的就是一个...

2016-02-27 18:18:00 45

原创 JVM之GC篇

1 GC的算法引用计数法标记清除标价压缩复制算法 1.1引用计数法引用计数器的实现很简单，对于一个对象A，...

2016-02-25 21:45:00 86

原创 ORACLE监控与优化点切入点简述

前言得空就整理下针对业务系统最常见的性能问题点和优化点进行列举（目前不包含对解释计划解读）（针对对ORACLE有一定了解的）查看手段生成AWR报表或者100...

2016-01-25 21:18:00 71

原创关于hive优化的补充和重新描述

join优化 1 小表在保证在map段join过滤大量数据 2 自动开启map段join ，设置hive.mapjoin.smalltable.f...

2015-12-27 23:35:00 65

原创 Jetty 的工作原理以及与 Tomcat 的比较

Jetty 的基本架构 Jetty 目前的是一个比较被看好的 Servlet 引擎，它的架构比较简单，也是一个可扩展性和非常灵活的应用服务器，它有一个基本数...

2015-12-02 11:58:00 92

空空如也

空空如也