大数据
文章平均质量分 68
fastrunner2003
这个作者很懒,什么都没留下…
展开
-
Spark SQL是如何选择join策略的?
前言我们都知道,Spark SQL主要有三种实现join的策略,分别是Broadcast hash join、Shuffle hash join、Sort merge join,在之前写的这篇文章里已经做过了简要的介绍。不过笔者还没说过Catalyst是依据什么样的规则来选择join策略的,本文来简单补个漏。Catalyst在由优化的逻辑计划生成物理计划的过程中,会根据org.apache.spark.sql.execution.SparkStrategies类中JoinSelection对象提供的规转载 2022-05-26 14:08:14 · 320 阅读 · 0 评论 -
HBase入门:查询中常用的Filter总结
简介: 根据技术调研的过程可以明显的体会到hbase的存储方式和数据库的存储有着明显的区别,查询的方式也有着很大不同,HBase主要是通过这种filter来对数据进行筛选。同时对于数据的体量较大(10亿级别以上的数据数据量),检索和修改的场景较多时是比较适合使用hbase。 HBase过滤器可以根据分为:列簇与列类型过滤器,行键过滤器,其他过滤器HBase Filter 概览查询hbase支持的filter 列表hbase(main):015:0> show_fil...转载 2022-05-17 16:27:42 · 1355 阅读 · 0 评论 -
hive 动态分区参数设置
使用Hive动态分区需要注意设定以下参数:1.是否开启动态分区功能,默认false关闭。默认值:falsehive.exec.dynamic.partition =false使用动态分区时候,该参数必须设置成true;hive.exec.dynamic.partition =true2.动态分区的模式:默认值:stricthive.exec.dynamic.partition.mode = strict1动态分区的模式为strict,表示必须指定至少一个分区为静态分区,n...转载 2022-04-18 11:07:15 · 4794 阅读 · 0 评论 -
Spark本地测试要点
1.hive元数据访问地址,一般走thrift协议System.setProperty("hive.metastore.uris","thrift://ip:9083")2.hive数据访问目录,HDFS协议路径System.setProperty("spark.sql.warehouse.dir","hdfs://ip:8020/user/hive/warehouse")3.本地模式,流处理必须是2个及以上线程System.setProperty("spark.master","loc原创 2022-04-15 14:03:21 · 1778 阅读 · 0 评论 -
深入理解spark-两种调度模式FIFO,FAIR模式
前面我们应知道了一个任务提交会由DAG拆分为job,stage,task,最后提交给TaskScheduler,在提交taskscheduler中会根据master初始化taskscheduler和schedulerbackend两个类,并且初始化一个调度池;1.调度池比较#根据mode初始化调度池pooldef initialize(backend: SchedulerBackend) { this.backend = backend // temporarily se.转载 2022-03-29 09:38:07 · 1135 阅读 · 0 评论 -
Hive教程之metastore的三种模式
Hive中metastore(元数据存储)的三种方式:内嵌Derby方式 Local方式 Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库。hive-site.xml中jdbc URL、驱动、用户名、密码等的配置信息如下:XHTML 1 2 3 4 5 6 7 8 9 10.转载 2022-03-24 08:53:33 · 1479 阅读 · 0 评论