- 博客(10)
- 收藏
- 关注
原创 TIDB SQL优化进阶(join方式的选择)
1.理解执行计划通过观察EXPLAIN的结果,你可以知道如何给数据表添加索引使得执行计划使用索引从而加速 SQL 语句的执行速度;你也可以使用EXPLAIN来检查优化器是否选择了最优的顺序来 JOIN 数据表详见:https://pingcap.com/docs-cn/v3.0/query-execution-plan/(1)EXPLAIN输出格式目前 TiDB 的EXPLAIN会输出 4 列,分别是:id,count,task,operator info。执行计划中每个算子都...
2020-08-07 17:19:10 3620 1
原创 使用sparksql insert overwrite插入hive分区导致所有分区被删
使用sparksql insert overwrite插入hive分区导致所有分区被删简单记录一下,防止踩坑。hive.exec.dynamic.partition=truehive.exec.dynamic.partition.mode=nonstrict开启这两个参数,进行动态插入分区表:insert overwrite table tablename partition(part_col)1.这种方式在2.3之前,只会修改查询结果的分区,没什么问题。2.但是如果在2.3之后,spark会
2021-07-13 14:10:18 4193
原创 将es数据增量导入hive(pyspark)
使用spark读取es的数据生成rdd# spark读取es数据得到rdddef read_rdd_from_es(ss, es_nodes, es_port, index, type, query_dic): query = {"query": {"match_all": {}}} if isinstance(query_dic, dict): query = json.dumps(query_dic) else: query = json.du
2020-10-15 17:33:20 1003
原创 Flink入门
Flink入门流式计算引擎的发展1、mapreduce2、storm3、flinkflink的特征1、Flink 核心特性分析:2、Flink 特点:3、Flink 关键特性:4、Hadoop 兼容性:流式计算引擎的发展1、mapreduce不能做流式计算,底层java实现2、storm用来做流式计算,底层clojure,java实现阿里将storm发扬光大,组建了一个团队,使用jav...
2020-04-01 10:54:44 333
原创 SparkSteaming整合Kafka的方式
1、基于Receiver方式这种方式构建出的DStream有一个接收者Receiver,通过这个接收者将数据保存在Executor中。这种方式是需要独享CPU的core,也就是说需要独立占用若干个线程。所以如果在本地模式下,local[N]中的N指定为1的话,就只有一个线程来运行SparkStreaming程序,这一个线程只能用来接收数据,没有额外的线程去计算,所以会看到数据不被处理的现象。...
2019-05-23 11:51:21 627
原创 用MR将HDFS数据批量导入HBase
importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.h...
2019-05-15 15:37:02 422
原创 Spark常用算子
算子算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 1.Transformation(转换):Transformation属于延迟lazy计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 2.Action(执行):触发Spark作业的运行,真正触发转换算子的计算。 3.Cache:如果数据需要复用,可以通过这个算子将数据缓存到内存常...
2019-04-25 18:52:26 210
原创 Spark核心概念
ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器ResourceManager。 Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为NodeManager,负责计算节点的控制。 Driver:运行Application的main()函数并创建SparkContext。...
2019-04-25 18:50:57 127
原创 Scala语言基础知识
Scala语言基础知识简介Scala解释器变量语法格式数据类型需要注意的类型:流程控制语句if表达式语句的终止块表达式输入输出while/do…while循环for循环异常处理Scala的函数注意:一些常见的函数:数组集合Map元祖Scala面向对象Scala函数Scala集合库Scala继承体系模式匹配概述常见的模式匹配类型参数隐式转换简介一句话总结,Scala是一门基于JVM的既面向函数式...
2019-04-23 16:41:31 439
原创 Hive文件格式
Hive文件格式一、TEXTFILE二、SEQUENCEFILE三、RCFILEhive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE格...
2019-04-23 16:11:27 597
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人