自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jodness' Blogs

Keep Learning

  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hive知识点总结(面试)

目录Hive元数据为何不存放在内置的derby数据库中?Hive中的四种排序?Hive与MySQL数据库区别?HQL的执行流程?Hive 工作原理?内部表与外部表?Hive分组排序的方式?Hive中的文件格式?Hive中的分区和分桶?lateral view 与 explode函数?Hive表关联查询时的数据倾斜?Hive中的谓词下...

2019-08-24 10:58:58 2441

原创 HBase知识点总结(面试)

阅读摘记,更新中...目录LSM-Tree是什么?为何HBase速度很快?HBase与Hive区别?HBase与传统关系型数据库区别?HBase的读写流程?Rolling WAL?Hbase memstore 的刷写时机?为什么不建议在 HBase 中使用过多的列族?HRegionServer 宕机如何处理?HBase合并机制?HBase读性能优...

2019-08-23 00:43:46 2721

原创 Spark:Spark Streaming概述、DStream离散流、flume+kafka+Spark Streaming

目录1、Spark Streaming概述1.1、Spark Streaming是什么1.2、Spark Streaming特点1.3、与其他流处理产品对比2、Spark Streaming 快速开始3、DStream离散流3.1、DStream概述3.2、DStream的输入3.2.1、基本数据源 文件数据源 自...

2019-08-18 15:55:01 1322

原创 Flink:standalone模式下start-cluster.sh之后taskmanager没起来

我的版本:Flink1.7.2、jdk1.8.0_201下午照着Flink官网部署了一下standalone模式,通过start-cluster.sh命令启动Flink集群后发现只有StandaloneSessionClusterEntrypoint进程起来了,并没有TaskManagerRunner,并且8081网页中taskmanager个数为0后来查看了taskmanager节点lo...

2019-08-15 20:55:12 7627

原创 Kafka:Kafka API(0.10.0.X)总结、Flume 与 kafka 集成

目录1、环境准备2、生产者API2.1、创建生产者并推送消息2.2、生产者与分区2.3、创建生产者带回调函数2.4、自定义分区3、消费者API3.1、创建消费者3.2、Producer拦截器(interceptor)4、Flume 与 kafka 集成1、环境准备1)启动zk、kafka集群,并创建topic名为"test",分区数为32)导入p...

2019-08-13 22:47:01 1121

原创 Kafka:概述、体系架构、Kafka集群部署、命令行操作、工作流程

目录1、Kafka(0.10.0.1)概述1.1、消息队列JMS1.2、消息队列的优点1.3、Kafka是什么2、Kafka体系架构1)消息 / 键 / 批次 2)Topic3)Producer 4)Consumer5)Consumer Group 6)Partition7)brocker3、Kafka集群部署...

2019-08-13 01:25:32 2560

原创 Flume:HDFS Sink频繁生成小文件,不按照设定属性滚动文件解决方案(源码)、hdfs.minBlockReplicas作用

比如我们想要通过Flume将数据输出到HDFS中,并且希望每个文件100K左右,可以这么设置sink属性a1.channels = c1a1.sinks = k1 a1.sinks.k1.type = hdfsa1.sinks.k1.channel = c1#目录名为/flume/小时-分钟/秒a1.sinks.k1.hdfs.path = /flume/%H-%M/%Sa1....

2019-08-10 13:11:00 2919

原创 Flume:概述、安装部署、常用Source/Sink/Channel属性、案例

目录1、Flume概述1.1、Flume是什么1.2、Flume基本架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3、Flume优点1.4、Flume常用模型2、Flume的安装部署3、Flume常用属性配置3.1、Source3.1.1、Avro Source3...

2019-08-08 21:56:04 2099 1

原创 Spark:JVM内存管理

目录1、Heap2、Minor GC & Full GC2.1、垃圾回收流程2.2、Spark中JVM优化原因3、Spark内存管理3.1、Spark 1.5.X及之前-静态内存管理3.2、Spark1.6.X及之后-Spark Unified Memory4、Spark(2.1.X)的JVM调优1、Heap由于Spark中的RDD实际上是Java...

2019-08-07 00:22:06 1344

原创 Spark:SparkSQL学习总结

目录1、SparkSQL概述1.1、SparkSQL是什么1.2、Spark SQL 的特点1.3、RDD/DataFrame/DataSet1.3.1、RDD1.3.2、DataFrame1.3.3、DataSet1.3.4、三者的共同点/区别1.4、SparkSQL执行流程2、SparkSQL查询解析2.1、SparkSession2.2、Dat...

2019-08-06 21:30:17 2423

原创 Spark:RDD编程总结(概述、算子、分区、共享变量)

目录1、RDD概述1.1、RDD是什么1.2、RDD的弹性1.3、RDD的特点1.3.1、分区1.3.2、只读1.3.3、依赖1.3.4、缓存1.3.5、检查点2、RDD编程2.1、RDD创建2.1.1、并行化集合2.1.2、读取外部数据集2.2、RDD的操作2.2.1、转换2.2.2、行动2.2.3、控制 1)缓...

2019-08-04 16:35:22 2106

原创 Spark(2.1.2):DAGScheduler、TaskScheduler源码跟踪分析

Spark调度的基本概念Task:任务,单个分区数据集上的最小处理流程单元 TaskSet:任务集,由一组关联的,但互相之间没有shuffle依赖关系的任务组成的集合 Stage:步骤,一个任务集的调度阶段 Job:作业,由一个RDD Action操作生成的一个或多个Stage组成的一次计算作业 Application:应用程序,由一个或多个Job组成在SparkContext中...

2019-08-03 01:38:08 853

Java:俄罗斯方块JPanel版

通过Java实现JPanel版俄罗斯方块,包括图片资源。

2019-01-29

jdbc+servlet+jsp员工信息管理(emp表)

emp表的增删改查以及用户登录注册,并且实现员工信息分页,用户注册时简单的验证码

2019-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除