大数据
魔都大迪奥
这个作者很懒,什么都没留下…
展开
-
Java中特殊符号“.“的深入理解及protected的访问权限分歧
Java中特殊符号"."的深入理解及protected的访问权限分歧在深入理解前让我们看一段代码Q : 为什么会报错?A : 因为你在A的类中声明clone方法Q : 真的是因为这个原因吗?众所周知,所有的class类都是默认继承object类虽然clone()在Object中被protected修饰但根据protected的原理(同包同类子类中都能调用)这里的clone()应...原创 2020-09-09 11:54:05 · 2198 阅读 · 0 评论 -
HashMap如何计算每个元素该放入的索引位置及kafka分区算法
HashMap如何计算每个元素该放入的索引位置及kafka分区算法HashMap底层的运用算法索引算法算法解析举例一举例二结论大数据衍生HashMap底层的运用算法索引算法int index = Hash(key.Hashcode) & (table.length - 1)算法解析Hash --> Java的Hash算法(固定算法)key.Hashcode -->...原创 2019-10-16 19:30:17 · 1140 阅读 · 1 评论 -
Kylin个人笔记
Kylin个人笔记Kylin是什么Kylin特点Kylin架构运作流程Kylin工作原理维度和度量Cube和Cuboid核心算法逐层构建算法(layer)快速构建算法(inmem)Kylin环境搭建安装地址安装部署快速入门创建项目登录系统创建工程选择数据源创建Model创建CubeKylin查询可视化ZeppelinZeppelin安装与启动配置Zepplin支持KylinZeppelin查询Cu...原创 2019-09-26 20:11:55 · 478 阅读 · 0 评论 -
Sqoop个人笔记
Sqoop个人笔记Sqoop是什么为什么不用Sqoop2.XSqoop原理简述Sqoop安装下载并解压修改配置文件拷贝JDBC驱动验证Sqoop测试Sqoop是否能够成功连接数据库Sqoop的简单使用案例导入数据RDBMS到HDFSRDBMS到HiveRDBMS到Hbase导出数据HIVE/HDFS到RDBMS脚本打包Sqoop一些常用命令及参数常用命令列举命令&参数详解公用参数:数据库连...原创 2019-09-26 16:26:53 · 190 阅读 · 0 评论 -
HBase调优
HBase调优高可用预分区RowKey设计内存优化基础优化高可用在HBase中HMaster负责监控HRegionServer的生命周期,均衡RegionServer的负载,如果HMaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对HMaster的高可用配置。1.关闭HBase集群(如果没有开启则跳过此步)@hadoop120...原创 2019-09-24 08:37:41 · 138 阅读 · 0 评论 -
Hbase个人笔记中篇
Hbase个人笔记中篇Kafka架构原理写流程重点:_root_表(了解)MemStore Flush(内存刷写)MemStore刷写时机读流程HBase读磁盘慢的原因官方解决HBase读磁盘慢的方法StoreFile Compaction解读参数HBase删除清理过期数据的机制Region Split解析不推荐使用的原因解读公式解决方案HBase API环境准备查看表是否存在创建命名空间创建表删...原创 2019-09-20 21:27:10 · 214 阅读 · 0 评论 -
Kafka调优
Kafka调优Swap机制调整vm.swappiness以避免不需要的磁盘I / O.简单设置持久设置推荐设置脏文件关于脏文件的两个参数推荐设置网络JVM虚拟机GC调优与CMS比较G1适合的场景Swap机制当物理内存使用达到一定的比例后,Linux就会使用进行swap,使用磁盘作为虚拟内存。通过cat /proc/sys/vm/swappiness可以看到swap参数。这个参数表示虚...原创 2019-09-20 13:07:11 · 413 阅读 · 0 评论 -
Flume对接Kafka之KafkaSink
Flume对接Kafka之KafkaSink默认配置对接配置flume创建并配置file-flume-kafka.conf启动kafka消费者启动flume追加数据查看消费情况自定义Flume的Kafka拦截器创建自定义拦截配置flume(和默认有所不同)注意:不要配置成flume的自定义拦截器配置开启kakfa的两个消费者分别获取first和second分区信息追加数据查看消费情况默认配置对接...原创 2019-09-19 21:19:28 · 3843 阅读 · 1 评论 -
HBase安装及基本操作
HBase安装及基本操作HBase安装部署Zookeeper正常部署Hadoop正常部署HBase的解压HBase的配置文件HBase远程发送到其他集群HBase服务的启动1.启动方式2.启动方式2查看HBase页面HBase Shell操作基本操作表的操作创建表插入数据到表扫描查看表数据查看表结构更新指定字段的数据查看“指定行”或“指定列族:列”的数据统计表数据行数删除数据清空表数据删除表变更表...原创 2019-09-18 18:54:09 · 646 阅读 · 0 评论 -
Hbase个人笔记前篇
Hbase个人解读第一章HBase是什么Hbase定义HBase数据模型HBase数据模型HBase物理存储结构数据模型HBase基本架构HBase是什么Hbase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBas...原创 2019-09-18 18:30:09 · 264 阅读 · 0 评论 -
Kafka个人笔记后篇(自定义拦截器及监控,与flume对接)
Kafka个人解读后篇自定义interceptorinterceptore原理interceptor实现第一个时间戳interceptor第二个计数器interceptor创建producerinterceptor结果Kafka监控Kafka EagleFlume对接Kafka自定义interceptorinterceptore原理Producer拦截器(interceptor)是在Kafk...原创 2019-09-18 18:16:24 · 503 阅读 · 0 评论 -
Kafka自定义分区
Kafka自定义分区继承partitioner的类主方法中配置该类继承partitioner的类package com.alibaba.partition;import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster;import java.util.Map;/...原创 2019-09-17 20:26:15 · 245 阅读 · 0 评论 -
Kafka个人笔记中篇
Kafka个人解读中篇Kafka高效读写数据1.顺序写磁盘注意2.Zero拷贝Zookeeper在Kafka中的作用Kafka事务Producer事务Consumer事务Kafka APIProducer API消息发送流程相关参数异步发送API同步发送APIConsumer API自动提交offset手动提交offset同步提交offset异步提交offset自定义存储offsetKafka高...原创 2019-09-17 19:52:16 · 362 阅读 · 0 评论 -
Kafka常见面试题(附个人解读答案+持续更新)
Kafka常见面试题题库1.Kafka中的ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)代表什么?2.Kafka中的HW、LEO等分别代表什么?3.Kafka的用途有哪些?使用场景如何?4.Kafka中是怎么体现消息顺序性的?5.“消费组中的消费者个数如果超过topic的分区,那么就会有消费者消费不到数据”这句话是否正确?6. 有哪些情形会造成重复消...原创 2019-09-17 19:16:31 · 11572 阅读 · 3 评论 -
大数据端口整理(持续更新)
大数据常用端口HadoopZookeeperHiveKafkaHadoop50070 : HDFS namenode 端口50090 : HDFS SecondaryNameNode 端口50010 : HDFS datanode 端口8088 : Yarn resourcemanager 端口8020 或 9000 : HDFS RPC 端口19888 : jobhistory ...原创 2019-09-16 20:50:55 · 345 阅读 · 0 评论 -
Kafka构建及命令行操作
Kafka构建及操作安装部署集群规划jar包下载集群部署安装部署集群规划hadoop120hadoop121zkzkkafkakafkajar包下载kafka官网下载集群部署1)解压安装包[DiAo@hadoop120 software]$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/2)...原创 2019-09-16 20:10:29 · 136 阅读 · 0 评论 -
Kafka个人笔记前篇
Kafka个人总结一Kafka的概述消息队列的回顾消息队列消息队列的好处消息队列的两种模式Kafka的基础架构Kafka架构深入Kafka工作流程及文件存储机制Kafka生产者分区策略数据可靠性保证acks参数配置:故障处理细节Exactly Once语义(精确一次)Kafka消费者消费模式分区分配策略offset维护消费者组测试Kafka的概述kafka是一个分布式的消息队列,基于发布/订阅...原创 2019-09-16 19:41:01 · 596 阅读 · 0 评论