2019年08月_瞧德

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hive知识点总结(面试)

目录Hive元数据为何不存放在内置的derby数据库中？Hive中的四种排序？Hive与MySQL数据库区别？HQL的执行流程？Hive 工作原理？内部表与外部表？Hive分组排序的方式？Hive中的文件格式？Hive中的分区和分桶？lateral view 与 explode函数？Hive表关联查询时的数据倾斜？Hive中的谓词下...

2019-08-24 10:58:58 2441

原创 HBase知识点总结(面试)

阅读摘记，更新中...目录LSM-Tree是什么？为何HBase速度很快？HBase与Hive区别？HBase与传统关系型数据库区别？HBase的读写流程？Rolling WAL？Hbase memstore 的刷写时机？为什么不建议在 HBase 中使用过多的列族？HRegionServer 宕机如何处理？HBase合并机制？HBase读性能优...

2019-08-23 00:43:46 2721

原创 Spark：Spark Streaming概述、DStream离散流、flume+kafka+Spark Streaming

目录1、Spark Streaming概述1.1、Spark Streaming是什么1.2、Spark Streaming特点1.3、与其他流处理产品对比2、Spark Streaming 快速开始3、DStream离散流3.1、DStream概述3.2、DStream的输入3.2.1、基本数据源文件数据源自...

2019-08-18 15:55:01 1322

原创 Flink：standalone模式下start-cluster.sh之后taskmanager没起来

我的版本：Flink1.7.2、jdk1.8.0_201下午照着Flink官网部署了一下standalone模式，通过start-cluster.sh命令启动Flink集群后发现只有StandaloneSessionClusterEntrypoint进程起来了，并没有TaskManagerRunner，并且8081网页中taskmanager个数为0后来查看了taskmanager节点lo...

2019-08-15 20:55:12 7627

原创 Kafka：Kafka API(0.10.0.X)总结、Flume 与 kafka 集成

目录1、环境准备2、生产者API2.1、创建生产者并推送消息2.2、生产者与分区2.3、创建生产者带回调函数2.4、自定义分区3、消费者API3.1、创建消费者3.2、Producer拦截器(interceptor)4、Flume 与 kafka 集成1、环境准备1）启动zk、kafka集群，并创建topic名为"test"，分区数为32）导入p...

2019-08-13 22:47:01 1121

原创 Kafka：概述、体系架构、Kafka集群部署、命令行操作、工作流程

目录1、Kafka(0.10.0.1)概述1.1、消息队列JMS1.2、消息队列的优点1.3、Kafka是什么2、Kafka体系架构1）消息 / 键 / 批次 2）Topic3）Producer 4）Consumer5）Consumer Group 6）Partition7）brocker3、Kafka集群部署...

2019-08-13 01:25:32 2560

原创 Flume：HDFS Sink频繁生成小文件，不按照设定属性滚动文件解决方案(源码)、hdfs.minBlockReplicas作用

比如我们想要通过Flume将数据输出到HDFS中，并且希望每个文件100K左右，可以这么设置sink属性a1.channels = c1a1.sinks = k1 a1.sinks.k1.type = hdfsa1.sinks.k1.channel = c1#目录名为/flume/小时-分钟/秒a1.sinks.k1.hdfs.path = /flume/%H-%M/%Sa1....

2019-08-10 13:11:00 2919

原创 Flume：概述、安装部署、常用Source/Sink/Channel属性、案例

目录1、Flume概述1.1、Flume是什么1.2、Flume基本架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3、Flume优点1.4、Flume常用模型2、Flume的安装部署3、Flume常用属性配置3.1、Source3.1.1、Avro Source3...

2019-08-08 21:56:04 2099 1

原创 Spark：JVM内存管理

目录1、Heap2、Minor GC & Full GC2.1、垃圾回收流程2.2、Spark中JVM优化原因3、Spark内存管理3.1、Spark 1.5.X及之前-静态内存管理3.2、Spark1.6.X及之后-Spark Unified Memory4、Spark(2.1.X)的JVM调优1、Heap由于Spark中的RDD实际上是Java...

2019-08-07 00:22:06 1344

原创 Spark：SparkSQL学习总结

目录1、SparkSQL概述1.1、SparkSQL是什么1.2、Spark SQL 的特点1.3、RDD/DataFrame/DataSet1.3.1、RDD1.3.2、DataFrame1.3.3、DataSet1.3.4、三者的共同点/区别1.4、SparkSQL执行流程2、SparkSQL查询解析2.1、SparkSession2.2、Dat...

2019-08-06 21:30:17 2423

原创 Spark：RDD编程总结(概述、算子、分区、共享变量)

目录1、RDD概述1.1、RDD是什么1.2、RDD的弹性1.3、RDD的特点1.3.1、分区1.3.2、只读1.3.3、依赖1.3.4、缓存1.3.5、检查点2、RDD编程2.1、RDD创建2.1.1、并行化集合2.1.2、读取外部数据集2.2、RDD的操作2.2.1、转换2.2.2、行动2.2.3、控制 1）缓...

2019-08-04 16:35:22 2106

原创 Spark(2.1.2)：DAGScheduler、TaskScheduler源码跟踪分析

Spark调度的基本概念Task：任务，单个分区数据集上的最小处理流程单元 TaskSet：任务集，由一组关联的，但互相之间没有shuffle依赖关系的任务组成的集合 Stage：步骤，一个任务集的调度阶段 Job：作业，由一个RDD Action操作生成的一个或多个Stage组成的一次计算作业 Application：应用程序，由一个或多个Job组成在SparkContext中...

2019-08-03 01:38:08 853

Java：俄罗斯方块JPanel版

通过Java实现JPanel版俄罗斯方块，包括图片资源。

2019-01-29

jdbc+servlet+jsp员工信息管理(emp表)

emp表的增删改查以及用户登录注册，并且实现员工信息分页，用户注册时简单的验证码

2019-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人