萌兔兔MMQ！！

hive

关注

文章平均质量分 81

关注数：文章数：6 文章阅读量：5617 文章收藏量：5

作者: 格格巫 MMQ!!

==========青春肆意飞扬，热爱经久不息。==============

展开

Spark中对大表子查询加limit为什么会报Broadcast超时错误

当两个表需要join时，如果一个是大表，一个是小表，正常的map-reduce流程需要shuffle，这会导致大表数据在节点间网络传输，常见的优化方式是将小表读到内存中并广播到大表处理，避免shuffle+reduce；对一个表broadcast执行过程为首先计算然后collect，然后通过SparkContext broadcast出去，并且执行过程为线程异步执行，超时时间为spark.sql.broadcastTimeout；现在，在集群上，我偶尔会超过300s的广播加入超时阈值。

原创 2022-09-19 11:38:36 · 1030 阅读 · 0 评论
搭建Spark所遇过的坑

不过出了问题再设置一下，也不错。在开发hive和Spark整合的时候，如果是Windows系统，并且没有配置HADOOP_HOME的环境变量，那么可能找不到winutils.exe这个工具，由于使用hive时，对该命令有依赖，所以不要忽视该错误，否则将无法创建HiveContext，一直报Exception in thread “main” java.lang.RuntimeException: java.lang.NullPointerException 因此，解决该办法有两个方式。

原创 2022-09-11 01:05:23 · 760 阅读 · 0 评论
SparkSQL远程访问CDH集群Hive数据表

第二种通过读取文件的方式访问(此时需要将集群的配置文件拷贝到resources文件下面core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)第一步需要配置本地Hadoop环境变量。第一步需要配置本地Hadoop环境变量。第一种通过Hive表直接访问。第一种通过Hive表直接访问。...

原创 2022-07-30 18:22:18 · 708 阅读 · 0 评论
CDH6.3.2 Hive on spark报错is running beyond physical memory limits

注意第一个参数是不可修改的，一旦设置，整个运行过程中不可动态修改，且该值的默认大小是8G，即使计算机内存不足8G也会按着8G内存来使用。说明这两个参主要是为需要运行JVM程序（java、scala等）准备的，通过这两个设置可以向JVM中传递参数的，与内存有关的是，-Xmx，-Xms等选项。通过配置我们看到，容器的最小内存和最大内存分别为3000m和10000m，而reduce设置的默认值小于2000m，map没有设置，所以两个值均为3000m，也就是log中的“2.9GBphysical。...

原创 2022-07-30 18:17:39 · 657 阅读 · 0 评论
CDH环境下关于Hive的部分命令

众所周知，hive的查询延迟是很高的，由于没有索引，需要扫描整张表，另一个原因是MapReduce计算框架，由于MapReduce本身具有很高的延迟，因此在利用MapReduce执行查询时，也会有很高的延迟，因此，我们决定使用SparkonHive提升hive性能。通过测试发现HiveonSpark对hive性能有明显提升，这还是运行在只有三个计算节点，每个计算节点只有4G内存的集群，在更高配置的集群里，HiveonSpark对hive的提升性能更加巨大。如何在Hive的命令行查看本地文件。...

原创 2022-07-30 18:12:32 · 260 阅读 · 0 评论
hive常用命令

3）hiveserver2是hiveserver（不支持并发）的升级版，启动了一个server服务，默认监听端口10000，客户端可以使用JDBC协议，支持多客户端的并发和认证，为开放API客户端如JDBC、ODBC提供了更好的支持。LOCAL本地数据INPATH文件的地址OVERWRITE覆盖表中的数据加overwrite是重写表的数据，不加是追加数据。如果增加分区必须在创建表的时候就创建分区，不然就会报错，创建分区的命令>partitionby‘根据哪个字段分区’，...

原创 2022-07-30 18:05:34 · 2203 阅读 · 0 评论