自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 TIDB SQL优化进阶(join方式的选择)

1.理解执行计划通过观察EXPLAIN的结果,你可以知道如何给数据表添加索引使得执行计划使用索引从而加速 SQL 语句的执行速度;你也可以使用EXPLAIN来检查优化器是否选择了最优的顺序来 JOIN 数据表详见:https://pingcap.com/docs-cn/v3.0/query-execution-plan/(1)EXPLAIN输出格式目前 TiDB 的EXPLAIN会输出 4 列,分别是:id,count,task,operator info。执行计划中每个算子都...

2020-08-07 17:19:10 3620 1

原创 使用sparksql insert overwrite插入hive分区导致所有分区被删

使用sparksql insert overwrite插入hive分区导致所有分区被删简单记录一下,防止踩坑。hive.exec.dynamic.partition=truehive.exec.dynamic.partition.mode=nonstrict开启这两个参数,进行动态插入分区表:insert overwrite table tablename partition(part_col)1.这种方式在2.3之前,只会修改查询结果的分区,没什么问题。2.但是如果在2.3之后,spark会

2021-07-13 14:10:18 4193

原创 将es数据增量导入hive(pyspark)

使用spark读取es的数据生成rdd# spark读取es数据得到rdddef read_rdd_from_es(ss, es_nodes, es_port, index, type, query_dic): query = {"query": {"match_all": {}}} if isinstance(query_dic, dict): query = json.dumps(query_dic) else: query = json.du

2020-10-15 17:33:20 1003

原创 Flink入门

Flink入门流式计算引擎的发展1、mapreduce2、storm3、flinkflink的特征1、Flink 核心特性分析:2、Flink 特点:3、Flink 关键特性:4、Hadoop 兼容性:流式计算引擎的发展1、mapreduce不能做流式计算,底层java实现2、storm用来做流式计算,底层clojure,java实现阿里将storm发扬光大,组建了一个团队,使用jav...

2020-04-01 10:54:44 333

原创 SparkSteaming整合Kafka的方式

1、基于Receiver方式这种方式构建出的DStream有一个接收者Receiver,通过这个接收者将数据保存在Executor中。这种方式是需要独享CPU的core,也就是说需要独立占用若干个线程。所以如果在本地模式下,local[N]中的N指定为1的话,就只有一个线程来运行SparkStreaming程序,这一个线程只能用来接收数据,没有额外的线程去计算,所以会看到数据不被处理的现象。...

2019-05-23 11:51:21 627

原创 用MR将HDFS数据批量导入HBase

importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.h...

2019-05-15 15:37:02 422

原创 Spark常用算子

算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 1.Transformation(转换):Transformation属于延迟lazy计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 2.Action(执行):触发Spark作业的运行,真正触发转换算子的计算。 3.Cache:如果数据需要复用,可以通过这个算子将数据缓存到内存常...

2019-04-25 18:52:26 210

原创 Spark核心概念

ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器ResourceManager。 Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为NodeManager,负责计算节点的控制。 Driver:运行Application的main()函数并创建SparkContext。...

2019-04-25 18:50:57 127

原创 Scala语言基础知识

Scala语言基础知识简介Scala解释器变量语法格式数据类型需要注意的类型:流程控制语句if表达式语句的终止块表达式输入输出while/do…while循环for循环异常处理Scala的函数注意:一些常见的函数:数组集合Map元祖Scala面向对象Scala函数Scala集合库Scala继承体系模式匹配概述常见的模式匹配类型参数隐式转换简介一句话总结,Scala是一门基于JVM的既面向函数式...

2019-04-23 16:41:31 439

原创 Hive文件格式

Hive文件格式一、TEXTFILE二、SEQUENCEFILE三、RCFILEhive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE格...

2019-04-23 16:11:27 597

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除