知了小巷-CSDN博客

原创 Apache Kafka生产环境集群资源规划与配置

Apache Kafka生产环境集群资源规划与配置更多精选文章，可微信搜索知了小巷，关注公众号并回复资料两个字，有大数据学习资料和视频。Kafka集群资源规划可以参考confluent版的部署建议：https://docs.confluent.io/current/kafka/deployment.html操作系统Kafka源码既包括Scala也有Java源文件，属于JVM体系的大数据框架。Java是跨平台语言，源码编译后可以运行在不同操作系统对应的JVM上面。尽管如此，Kafka运行

2020-11-04 00:38:53 636 1

原创入门Apache Kafka需要了解的方方面面

入门Apache Kafka需要了解的方方面面可微信搜索知了小巷，关注公众号支持一下，谢谢。公众号后台回复资料，可领取大数据2020学习视频资料。Apache Kafka是什么？Apache Kafka是一个开源的分布式消息引擎系统。Apache Kafka是消息引擎系统，也是一个分布式流处理平台（Distributed Streaming Platform）。Kafka社区的早期定位是：一个分布式、分区化且带备份功能的提交日志（Commit Log）服务。除了Kafka之外，还有诸如P

2020-10-29 18:28:58 378

原创 Spark源码解析-Yarn部署流程（ApplicationMaster）

Spark源码解析-Yarn部署流程（ApplicationMaster）可微信搜索知了小巷，关注公众号支持一下，谢谢。另外，公众号后台回复资料，可领取大数据2020学习视频资料。前文【Spark源码解析Yarn部署流程（SparkSubmit）】中createContainerLaunchContext用来运行ApplicationMaster。主要调用是在：yarnClient.submitApplication(appContext)。RM：ResourceManager。

2020-10-13 22:14:26 1054

原创 Spark Core基础面试题总结（上）

Spark Core基础面试题总结（上）微信搜索公众号：知了小巷公众号后台回复“资料”两个字，有大数据神秘学习大礼包！1. Spark的几种部署模式及其特点SparkSubmit#prepareSubmitEnvironment//SettheclustermanagervalclusterManager:Int=args.mastermatch{case"yarn"=>YARNcasemifm.startsWith("spark")...

2020-10-08 21:56:56 1046

转载详细分析 Java 中实现多线程的方法有几种？(本质)

正确说法（本质）实现多线程的官方正确方法: 2 种。Oracle 官网的文档说明https://docs.oracle.com/javase/8/docs/api/index.htmlpublic class Threadextends Objectimplements RunnableA thread is a thread of execution in a program. The Java Virtual Machine allows an application to have

2020-09-26 21:41:39 316 1

原创 TiDB binlog实时同步数据到下游Kafka

1 TiDB测试集群，使用tiup进行安装部署和运维操作。集群状态如下：2 简要介绍一下TiDB binlog架构TiDB Binlog集群主要分为Pump和Drainer两个组件，以及binlogctl工具：PumpPump用于实时记录TiDB产生的Binlog，并将Binlog按照事务的提交时间进行排序，再提供给Drainer进行消费。DrainerDrainer从各个Pump中收集Binlog进行归并，再将Binlog转化成SQL或者指定格式的数据，最终同步到下游。binlogc

2020-08-31 23:23:21 1867 1

原创 datax同步数据，从Oracle到Phoenix

Oracle数据源端文档说明https://github.com/alibaba/DataX/blob/master/oraclereader/doc/oraclereader.mdPhoenix4.x数据目标端文档说明https://github.com/alibaba/DataX/blob/master/hbase11xsqlwriter/doc/hbase11xsqlwriter.mdOracle：oraclereaderPhoenix：hbase11xsqlwriter实例json

2020-08-15 14:23:57 1068 2

原创 HBase数据采集和Phoenix表映射使用索引查询的问题（解决方案）

描述：需要将数据从Oracle批量和实时采集到HBase中，并通过Phoenix映射表进行查询，支持二级索引。二级索引类型选择使用覆盖索引。当在Phoenix表创建二级索引之后，从Oracle采集到HBase的增量数据并没有从二级索引的条件中筛选出来，也就是Phoenix没有自动为通过HBase API进来的增量数据创建和维护索引，一般需要rebuild，方式有两种：1.先删除索引，再重新创建索引2.ALTER语法以上均从Phoenix端进行操作。现在进行演示，数据采集工具使用D..

2020-08-13 11:13:06 651

转载 Hive程序相关规范-有助于调优

一份拥有良好代码风格的程序，有助于开发者发现性能问题，缩短调优的时间，降低维护成本，同时也能促进程序员的自我提高。规范分为三类：开发规范、设计规范和命名规范。</>开发规范# 单条SQL长度不宜超过一屏。# 少用或者不用Hint，特别是在Hive2.0后，增强HiveSQL对于成本调优（CBO）的支持，在业务环境变化时可能会导致Hive无法选用最优的执行计划。# 避免SQL代码的复制、粘贴。如果有多处逻辑一致的代码，可以将执行结果存到临时表中。# 尽可能使用SQL..

2020-08-09 20:24:29 479

转载 HBase内部探险-数据模型

#</>数据模型HBase数据模型的核心概念Namespace（表命名空间）：表命名空间不是强制的，默认是default。当想把多个表分到一个组去统一管理的时候才会用到表命名空间。类似传统关系型数据库中的数据库database或schema。Table（表）：一个表由一个或者多个列族组成。它有一些数据属性，比如超时时间（TTL），压缩算法（COMPRESSION）等，都在列族的定义中定义。定义完列族后表是空的，只有添加了行，表才有数据。Row（行）：一个行包含了多个列，这些列通.

2020-08-04 23:21:07 225

原创 StreamSets实时采集MySQL数据到HBase

本地HBase环境$ jps4082 Jps3556 NameNode3813 QuorumPeerMain3911 HMaster3642 DataNode3739 SecondaryNameNode3999 HRegionServer本地环境演示实例mysql环境$ docker psCONTAINER ID IMAGE COMMAND CREATED STATUS

2020-08-04 23:15:08 700

转载数据中台为什么那么火？

数据中台为什么这么受欢迎？为什么有这么大的需求？数据实际上是一个非常传统的行业。在有软件开始的那一天起，数据这个行业就存在了。比如说原来最早的时候，有非常多的数据报表数据可视化，然后到后来，有了商业智能，有了Data Warehouse（就是数据仓库），然后数据挖掘，并且在数据这个行业里面是有非常多的巨头的，比如teradata、canis-biee、microstrategy等。然后数据这个行业不仅仅是软件，它还有管理的部分，也就是说数据治理，即如何让企业的数据治理的质量更好。所以数据这个

2020-07-31 09:07:07 1461

原创 Phoenix Java API配置及使用总结

Phoenix定位为OLTP和操作型分析（operational analytics），大多用于在线业务，稳定性要求第一位。Phoenix的功能很强大，也很灵活，Phoenix SQL基于SQL-92标准，但是还是有很多方言，使用时需要特别注意。#ZK方式0.需要把hbase-site.xml放到resource下面1. 可以配置到Spring项目中，比如下面数据源配置<bean id="phoenixDataSource" class="org.apache.common...

2020-07-30 08:48:32 1987 1

原创 Phoenix表映射

Phoenix定位为OLTP和操作型分析（operational analytics），大多用于在线业务，稳定性要求第一位。Phoenix的功能很强大，也很灵活，Phoenix SQL基于SQL-92标准，但是还是有很多方言，使用时需要特别注意。基础软件版本：Apache Hadoop：hadoop-2.8.5Apache HBase：hbase-1.4.10Apache Phoenix：phoenix-4.14.3-HBase-1.4-binPhoenix版本支持：Ph..

2020-07-28 21:11:59 517

原创 Phoenix视图映射

Phoenix定位为OLTP和操作型分析（operational analytics），大多用于在线业务，稳定性要求第一位。Phoenix的功能很强大，也很灵活，Phoenix SQL基于SQL-92标准，但是还是有很多方言，使用时需要特别注意。DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各种异构数..

2020-07-22 09:40:39 657

转载 Kafka基础知识总结

1.Kafka分区复制和多数据中心架构2.Kafka压测Kafka官方自带压力测试脚本：（kafka-consumer-perf-test.sh、kafka-producer-perf-test.sh）。Kafka压测时，可以查看到哪个地方出现了瓶颈（CPU，内存，网络IO）。一般都是网络IO达到瓶颈。3.Kafka的机器数量Kafka机器数量 = 2*（峰值生产速度 * 副本数 / 100）+14.Kafka的日志保存时间默认7天，可修改...

2020-07-07 07:51:55 1012

转载数据体系的四个层次：数据采集、数据计算、数据服务和数据应用

1.数据采集层客户端日志采集方案：Web日志采集技术方案和APP端日志采集技术方案。在采集技术基础之上，不同的业务场景会有与之相适应的埋点规范，来满足通用的浏览、点击、特殊交互、APP事件、H5 APP里的H5 Native日志数据打通等多种业务场景。高性能的数据传输：既包括数据库的增量数据传输，也包括日志数据的传输；既支持实时流式计算，也支持各种时间窗口的批量计算。同步中心：同步工具DataX，直连异构数据库（备库）来抽取各种时间窗口（每天、每小时）的数据。2.数据计算层...

2020-07-07 07:44:28 19460

原创 Hadoop YARN：ApplicationMaster向ResourceManager注册AM源码调试

#0. 先看一下测试demo的运行流程a.创建一个YARN客户端YarnClient，并与ResourceManager建立连接b.通过YARN客户端创建一个应用并获取到应用提交上下文对象、设置相关的属性特别是需要设置setAMContainerSpec，防止后面getTokensConf时报空指针异常；还需要设置setUnmanagedAM，不需要RM来管理AM（分配并启动Container），置为true之后就不再需要设置请求的资源大小了（UAM主要...

2020-07-01 00:27:57 809

原创 Hadoop YARN：ApplicationMaster与ResourceManager交互源码解析

ApplicationMaster<-->ResourceManager“通用”YARN应用涉及的角色及交互：RM：ResourceManagerAM：ApplicationMasterNM：NodeManager交互中用到的主要通信协议：ApplicationClientProtocolApplicationMasterProtocolContainerManagementProtocolClient<-->ResourceMa...

2020-06-25 17:01:24 518

原创 Java并发编程面试基础问题和答案

Java并发编程1.Synchronized用过吗，其原理是什么？这是一道Java面试中几乎百分百会问到的问题，因为没有任何写过并发程序的开发者会没听说或者没接触过Synchronized。Synchronized是由JVM实现的一种实现互斥同步的一种方式，如果你查看被Synchronized修饰过的程序块编译后的字节码，会发现，被Synchronized修饰过的程序块，在编译前后被编译器生成了monitorenter和monitorexit两个字节码指令。这两个指令是什么意思呢？在虚拟机执行到mo

2020-06-21 14:28:04 330

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

越是学习的人，越能清醒地认识自身的局限，不断拓宽自己的路