大数据开发
知了小巷
Java 大数据 架构设计;微信可关注 知了小巷 公众号,一起交流学习!
展开
-
Apache Kafka生产环境集群资源规划与配置
Apache Kafka生产环境集群资源规划与配置更多精选文章,可微信搜索 知了小巷,关注公众号并回复 资料 两个字,有大数据学习资料和视频。Kafka集群资源规划可以参考confluent版的部署建议:https://docs.confluent.io/current/kafka/deployment.html操作系统Kafka源码既包括Scala也有Java源文件,属于JVM体系的大数据框架。Java是跨平台语言,源码编译后可以运行在不同操作系统对应的JVM上面。尽管如此,Kafka运行原创 2020-11-04 00:38:53 · 468 阅读 · 1 评论 -
入门Apache Kafka需要了解的方方面面
入门Apache Kafka需要了解的方方面面可微信搜索 知了小巷 ,关注公众号支持一下,谢谢。公众号后台回复 资料 ,可领取大数据2020学习视频资料。Apache Kafka是什么?Apache Kafka是一个开源的分布式消息引擎系统。Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform)。Kafka社区的早期定位是:一个分布式、分区化且带备份功能的提交日志(Commit Log)服务。除了Kafka之外,还有诸如P原创 2020-10-29 18:28:58 · 288 阅读 · 0 评论 -
Spark源码解析-Yarn部署流程(ApplicationMaster)
Spark源码解析-Yarn部署流程(ApplicationMaster)可微信搜索 知了小巷 ,关注公众号支持一下,谢谢。另外,公众号后台回复 资料 ,可领取大数据2020学习视频资料。前文【Spark源码解析Yarn部署流程(SparkSubmit)】中createContainerLaunchContext用来运行ApplicationMaster。主要调用是在:yarnClient.submitApplication(appContext)。RM:ResourceManager。原创 2020-10-13 22:14:26 · 929 阅读 · 0 评论 -
TiDB binlog实时同步数据到下游Kafka
1 TiDB测试集群,使用tiup进行安装部署和运维操作。集群状态如下:2 简要介绍一下TiDB binlog架构TiDB Binlog集群主要分为Pump和Drainer两个组件,以及binlogctl工具:PumpPump用于实时记录TiDB产生的Binlog,并将Binlog按照事务的提交时间进行排序,再提供给Drainer进行消费。DrainerDrainer从各个Pump中收集Binlog进行归并,再将Binlog转化成SQL或者指定格式的数据,最终同步到下游。binlogc原创 2020-08-31 23:23:21 · 1688 阅读 · 1 评论 -
datax同步数据,从Oracle到Phoenix
Oracle数据源端文档说明https://github.com/alibaba/DataX/blob/master/oraclereader/doc/oraclereader.mdPhoenix4.x数据目标端文档说明https://github.com/alibaba/DataX/blob/master/hbase11xsqlwriter/doc/hbase11xsqlwriter.mdOracle:oraclereaderPhoenix:hbase11xsqlwriter实例json原创 2020-08-15 14:23:57 · 913 阅读 · 2 评论 -
HBase数据采集和Phoenix表映射使用索引查询的问题(解决方案)
描述:需要将数据从Oracle批量和实时采集到HBase中,并通过Phoenix映射表进行查询,支持二级索引。二级索引类型选择使用覆盖索引。当在Phoenix表创建二级索引之后,从Oracle采集到HBase的增量数据并没有从二级索引的条件中筛选出来,也就是Phoenix没有自动为通过HBase API进来的增量数据创建和维护索引,一般需要rebuild,方式有两种:1.先删除索引,再重新创建索引2.ALTER语法以上均从Phoenix端进行操作。现在进行演示,数据采集工具使用D..原创 2020-08-13 11:13:06 · 587 阅读 · 0 评论 -
StreamSets实时采集MySQL数据到HBase
本地HBase环境$ jps4082 Jps3556 NameNode3813 QuorumPeerMain3911 HMaster3642 DataNode3739 SecondaryNameNode3999 HRegionServer本地环境演示实例mysql环境$ docker psCONTAINER ID IMAGE COMMAND CREATED STATUS原创 2020-08-04 23:15:08 · 617 阅读 · 0 评论 -
Phoenix Java API配置及使用总结
Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。#ZK方式0.需要把hbase-site.xml放到resource下面1. 可以配置到Spring项目中,比如下面数据源配置<bean id="phoenixDataSource" class="org.apache.common...原创 2020-07-30 08:48:32 · 1698 阅读 · 1 评论 -
Phoenix表映射
Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。基础软件版本:Apache Hadoop:hadoop-2.8.5Apache HBase:hbase-1.4.10Apache Phoenix:phoenix-4.14.3-HBase-1.4-binPhoenix版本支持:Ph..原创 2020-07-28 21:11:59 · 459 阅读 · 0 评论 -
Phoenix视图映射
Phoenix定位为OLTP和操作型分析(operational analytics),大多用于在线业务,稳定性要求第一位。Phoenix的功能很强大,也很灵活,Phoenix SQL基于SQL-92标准,但是还是有很多方言,使用时需要特别注意。DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各种异构数..原创 2020-07-22 09:40:39 · 561 阅读 · 0 评论