自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (7)
  • 收藏
  • 关注

原创 Apache Kafka生产环境集群资源规划与配置

Apache Kafka生产环境集群资源规划与配置更多精选文章,可微信搜索 知了小巷,关注公众号并回复 资料 两个字,有大数据学习资料和视频。Kafka集群资源规划可以参考confluent版的部署建议:https://docs.confluent.io/current/kafka/deployment.html操作系统Kafka源码既包括Scala也有Java源文件,属于JVM体系的大数据框架。Java是跨平台语言,源码编译后可以运行在不同操作系统对应的JVM上面。尽管如此,Kafka运行

2020-11-04 00:38:53 505 1

原创 入门Apache Kafka需要了解的方方面面

入门Apache Kafka需要了解的方方面面可微信搜索 知了小巷 ,关注公众号支持一下,谢谢。公众号后台回复 资料 ,可领取大数据2020学习视频资料。Apache Kafka是什么?Apache Kafka是一个开源的分布式消息引擎系统。Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform)。Kafka社区的早期定位是:一个分布式、分区化且带备份功能的提交日志(Commit Log)服务。除了Kafka之外,还有诸如P

2020-10-29 18:28:58 304

原创 Spark源码解析-Yarn部署流程(ApplicationMaster)

Spark源码解析-Yarn部署流程(ApplicationMaster)可微信搜索 知了小巷 ,关注公众号支持一下,谢谢。另外,公众号后台回复 资料 ,可领取大数据2020学习视频资料。前文【Spark源码解析Yarn部署流程(SparkSubmit)】中createContainerLaunchContext用来运行ApplicationMaster。主要调用是在:yarnClient.submitApplication(appContext)。RM:ResourceManager。

2020-10-13 22:14:26 956

原创 Spark Core基础面试题总结(上)

Spark Core基础面试题总结(上)微信搜索公众号:知了小巷公众号后台回复“资料”两个字,有大数据神秘学习大礼包!1. Spark的几种部署模式及其特点SparkSubmit#prepareSubmitEnvironment//SettheclustermanagervalclusterManager:Int=args.mastermatch{case"yarn"=>YARNcasemifm.startsWith("spark")...

2020-10-08 21:56:56 942

转载 详细分析 Java 中实现多线程的方法有几种?(本质)

正确说法(本质)实现多线程的官方正确方法: 2 种。Oracle 官网的文档说明https://docs.oracle.com/javase/8/docs/api/index.htmlpublic class Threadextends Objectimplements RunnableA thread is a thread of execution in a program. The Java Virtual Machine allows an application to have

2020-09-26 21:41:39 261 1

原创 TiDB binlog实时同步数据到下游Kafka

1 TiDB测试集群,使用tiup进行安装部署和运维操作。集群状态如下:2 简要介绍一下TiDB binlog架构TiDB Binlog集群主要分为Pump和Drainer两个组件,以及binlogctl工具:PumpPump用于实时记录TiDB产生的Binlog,并将Binlog按照事务的提交时间进行排序,再提供给Drainer进行消费。DrainerDrainer从各个Pump中收集Binlog进行归并,再将Binlog转化成SQL或者指定格式的数据,最终同步到下游。binlogc

2020-08-31 23:23:21 1722 1

原创 datax同步数据,从Oracle到Phoenix

Oracle数据源端文档说明https://github.com/alibaba/DataX/blob/master/oraclereader/doc/oraclereader.mdPhoenix4.x数据目标端文档说明https://github.com/alibaba/DataX/blob/master/hbase11xsqlwriter/doc/hbase11xsqlwriter.mdOracle:oraclereaderPhoenix:hbase11xsqlwriter实例json

2020-08-15 14:23:57 939 2

原创 HBase数据采集和Phoenix表映射使用索引查询的问题(解决方案)

描述:需要将数据从Oracle批量和实时采集到HBase中,并通过Phoenix映射表进行查询,支持二级索引。二级索引类型选择使用覆盖索引。当在Phoenix表创建二级索引之后,从Oracle采集到HBase的增量数据并没有从二级索引的条件中筛选出来,也就是Phoenix没有自动为通过HBase API进来的增量数据创建和维护索引,一般需要rebuild,方式有两种:1.先删除索引,再重新创建索引2.ALTER语法以上均从Phoenix端进行操作。现在进行演示,数据采集工具使用D..

2020-08-13 11:13:06 601

转载 Hive程序相关规范-有助于调优

一份拥有良好代码风格的程序,有助于开发者发现性能问题,缩短调优的时间,降低维护成本,同时也能促进程序员的自我提高。规范分为三类:开发规范、设计规范和命名规范。</>开发规范# 单条SQL长度不宜超过一屏。# 少用或者不用Hint,特别是在Hive2.0后,增强HiveSQL对于成本调优(CBO)的支持,在业务环境变化时可能会导致Hive无法选用最优的执行计划。# 避免SQL代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存到临时表中。# 尽可能使用SQL..

2020-08-09 20:24:29 366

转载 HBase内部探险-数据模型

#</>数据模型HBase数据模型的核心概念Namespace(表命名空间):表命名空间不是强制的,默认是default。当想把多个表分到一个组去统一管理的时候才会用到表命名空间。类似传统关系型数据库中的数据库database或schema。Table(表):一个表由一个或者多个列族组成。它有一些数据属性,比如超时时间(TTL),压缩算法(COMPRESSION)等,都在列族的定义中定义。定义完列族后表是空的,只有添加了行,表才有数据。Row(行):一个行包含了多个列,这些列通.

2020-08-04 23:21:07 176

原创 StreamSets实时采集MySQL数据到HBase

本地HBase环境$ jps4082 Jps3556 NameNode3813 QuorumPeerMain3911 HMaster3642 DataNode3739 SecondaryNameNode3999 HRegionServer本地环境演示实例mysql环境$ docker psCONTAINER ID IMAGE COMMAND CREATED STATUS

2020-08-04 23:15:08 624

转载 数据中台为什么那么火?

数据中台为什么这么受欢迎?为什么有这么大的需求?数据实际上是一个非常传统的行业。在有软件开始的那一天起,数据这个行业就存在了。比如说原来最早的时候,有非常多的数据报表数据可视化,然后到后来,有了商业智能,有了Data Warehouse(就是数据仓库),然后数据挖掘,并且在数据这个行业里面是有非常多的巨头的,比如teradata、canis-biee、microstrategy等。然后数据这个行业不仅仅是软件,它还有管理的部分,也就是说数据治理,即如何让企业的数据治理的质量更好。所以数据这个

2020-07-31 09:07:07 1221

原创 Phoenix Java API配置及使用总结

Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。#ZK方式0.需要把hbase-site.xml放到resource下面1. 可以配置到Spring项目中,比如下面数据源配置<bean id="phoenixDataSource" class="org.apache.common...

2020-07-30 08:48:32 1770 1

原创 Phoenix表映射

Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。基础软件版本:Apache Hadoop:hadoop-2.8.5Apache HBase:hbase-1.4.10Apache Phoenix:phoenix-4.14.3-HBase-1.4-binPhoenix版本支持:Ph..

2020-07-28 21:11:59 470

原创 Phoenix视图映射

Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各种异构数..

2020-07-22 09:40:39 576

转载 Kafka基础知识总结

1.Kafka分区复制和多数据中心架构2.Kafka压测Kafka官方自带压力测试脚本:(kafka-consumer-perf-test.sh、kafka-producer-perf-test.sh)。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。3.Kafka的机器数量Kafka机器数量 = 2*(峰值生产速度 * 副本数 / 100)+14.Kafka的日志保存时间默认7天,可修改...

2020-07-07 07:51:55 885

转载 数据体系的四个层次:数据采集、数据计算、数据服务和数据应用

1.数据采集层客户端日志采集方案:Web日志采集技术方案和APP端日志采集技术方案。在采集技术基础之上,不同的业务场景会有与之相适应的埋点规范,来满足通用的浏览、点击、特殊交互、APP事件、H5 APP里的H5 Native日志数据打通等多种业务场景。高性能的数据传输:既包括数据库的增量数据传输,也包括日志数据的传输;既支持实时流式计算,也支持各种时间窗口的批量计算。同步中心:同步工具DataX,直连异构数据库(备库)来抽取各种时间窗口(每天、每小时)的数据。2.数据计算层...

2020-07-07 07:44:28 16991

原创 Hadoop YARN:ApplicationMaster向ResourceManager注册AM源码调试

#0. 先看一下测试demo的运行流程a.创建一个YARN客户端YarnClient,并与ResourceManager建立连接b.通过YARN客户端创建一个应用并获取到应用提交上下文对象、设置相关的属性 特别是需要设置setAMContainerSpec, 防止后面getTokensConf时报空指针异常; 还需要设置setUnmanagedAM,不需要RM来管理AM(分配并启动Container),置为true之后就不再需要设置请求的资源大小了(UAM主要...

2020-07-01 00:27:57 677

原创 Hadoop YARN:ApplicationMaster与ResourceManager交互源码解析

ApplicationMaster<-->ResourceManager“通用”YARN应用涉及的角色及交互:RM:ResourceManagerAM:ApplicationMasterNM:NodeManager交互中用到的主要通信协议:ApplicationClientProtocolApplicationMasterProtocolContainerManagementProtocolClient<-->ResourceMa...

2020-06-25 17:01:24 431

原创 Java并发编程面试基础问题和答案

Java并发编程1.Synchronized用过吗,其原理是什么?这是一道Java面试中几乎百分百会问到的问题,因为没有任何写过并发程序的开发者会没听说或者没接触过Synchronized。Synchronized是由JVM实现的一种实现互斥同步的一种方式,如果你查看被Synchronized修饰过的程序块编译后的字节码,会发现,被Synchronized修饰过的程序块,在编译前后被编译器生成了monitorenter和monitorexit两个字节码指令。这两个指令是什么意思呢?在虚拟机执行到mo

2020-06-21 14:28:04 282

原创 Apache Hadoop YARN:Client客户端与ResourceManager源码DEBUG

本文将通过DEBUG的方式进行源码跟踪,探查YARN客户端与ResourceManager之间简单的交互过程,以yarnClient.getAllQueues()获取YARN集群所有队列信息为例进行演示。Hadoop版本3.2.1DEBUG环境:IntelliJ IDEA一、 测试用例这里直接调用YarnClient的静态方法createYarnClient()创建一个YarnClient实例new YarnClientImpl();。yarnClient.init(c.

2020-06-16 00:32:44 1062

原创 Apache Hadoop YARN:Client与ResourceManager交互源码解析

本文主要解析Client<-->ResourceManager之间接口(方法)调用过程(不涉及RPC细节)。“通用”YARN应用涉及的角色及交互:RM:ResourceManagerAM:ApplicationMasterNM:NodeManager交互中用到的主要通信协议:ApplicationClientProtocolApplicationMasterProtocolContainerManagementProtocol客户端程序与RM进行交..

2020-06-14 14:23:56 817 1

127页Java面试手册_2019-350-Java.pdf

Java面试手册目录 一、性能优化面试专栏1.1、tomcat性能优化整理1.2、JVM性能优化整理1.3、Mysq性能优化整理二、微服务架构面试专栏2.1、SpringCloud面试整理2.2、SpringBoot面试整理 2.3、Dubbo面试整理三、并发编程高级面试专栏四、开源框架面试题专栏4.1、Spring面试整理4.2、SpringMVC面试整理4.3、MyBatis面试整理五、分布式面试专栏5.1、分布式限流面试整理 5.2、分布式通讯面试整理5.3、分布式数据库面试整理

2020-08-06

ELK+FileBeat+Kafka分布式系统搭建图文教程.pdf

1.filebeat收集需要提取的日志文件,将日志文件转存到kafka集群中,logstash处理kafka日志,格式化处理,并将日志输出到elasticsearch中,前台页面通过kibana展示日志。 2.使用kafka集群做缓存层,而不是直接将filebeat收集到的日志信息写入logstash,让整体结构更健壮,减少网络环境,导致数据丢失。filebeat负责将收集到的数据写入kafka,logstash取出数据并处理。

2020-06-15

protobuf-2.5.0.tar.gz.zip

protobuf-2.5.0.tar.gz; protobuf最新stable 3.12.2,已经不支持2.5.0啦

2020-06-10

W3C_School在线帮助文档

参考手册涵盖了网站技术的方方面面。 其中包括W3C的标准技术:HTML、XHTML、CSS、XML 。以及其他的技术,诸如JavaScript、PHP、ASP、SQL等等。

2012-02-16

myeclipse.10.0.更新发布破解方法

更新的myEclipse10.0破解方法,分享一下

2011-11-06

手机号码段归属地数据库

接近5M的全国手机号码段的归属地,可供数据库SQL语句建表。

2011-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除