hive
文章平均质量分 81
格格巫 MMQ!!
==========青春肆意飞扬,热爱经久不息。==============
展开
-
Spark中对大表子查询加limit为什么会报Broadcast超时错误
当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce;对一个表broadcast执行过程为首先计算然后collect,然后通过SparkContext broadcast出去,并且执行过程为线程异步执行,超时时间为spark.sql.broadcastTimeout;现在,在集群上,我偶尔会超过300s的广播加入超时阈值。原创 2022-09-19 11:38:36 · 1030 阅读 · 0 评论 -
搭建Spark所遇过的坑
不过出了问题再设置一下,也不错。在开发hive和Spark整合的时候,如果是Windows系统,并且没有配置HADOOP_HOME的环境变量,那么可能找不到winutils.exe这个工具,由于使用hive时,对该命令有依赖,所以不要忽视该错误,否则将无法创建HiveContext,一直报Exception in thread “main” java.lang.RuntimeException: java.lang.NullPointerException 因此,解决该办法有两个方式。原创 2022-09-11 01:05:23 · 760 阅读 · 0 评论 -
SparkSQL远程访问CDH集群Hive数据表
第二种通过读取文件的方式访问(此时需要将集群的配置文件拷贝到resources文件下面core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)第一步需要配置本地Hadoop环境变量。第一步需要配置本地Hadoop环境变量。第一种通过Hive表直接访问。第一种通过Hive表直接访问。...原创 2022-07-30 18:22:18 · 708 阅读 · 0 评论 -
CDH6.3.2 Hive on spark报错is running beyond physical memory limits
注意第一个参数是不可修改的,一旦设置,整个运行过程中不可动态修改,且该值的默认大小是8G,即使计算机内存不足8G也会按着8G内存来使用。说明这两个参主要是为需要运行JVM程序(java、scala等)准备的,通过这两个设置可以向JVM中传递参数的,与内存有关的是,-Xmx,-Xms等选项。通过配置我们看到,容器的最小内存和最大内存分别为3000m和10000m,而reduce设置的默认值小于2000m,map没有设置,所以两个值均为3000m,也就是log中的“2.9GBphysical。...原创 2022-07-30 18:17:39 · 657 阅读 · 0 评论 -
CDH环境下关于Hive的部分命令
众所周知,hive的查询延迟是很高的,由于没有索引,需要扫描整张表,另一个原因是MapReduce计算框架,由于MapReduce本身具有很高的延迟,因此在利用MapReduce执行查询时,也会有很高的延迟,因此,我们决定使用SparkonHive提升hive性能。通过测试发现HiveonSpark对hive性能有明显提升,这还是运行在只有三个计算节点,每个计算节点只有4G内存的集群,在更高配置的集群里,HiveonSpark对hive的提升性能更加巨大。如何在Hive的命令行查看本地文件。...原创 2022-07-30 18:12:32 · 260 阅读 · 0 评论 -
hive常用命令
3)hiveserver2是hiveserver(不支持并发)的升级版,启动了一个server服务,默认监听端口10000,客户端可以使用JDBC协议,支持多客户端的并发和认证,为开放API客户端如JDBC、ODBC提供了更好的支持。LOCAL本地数据INPATH文件的地址OVERWRITE覆盖表中的数据加overwrite是重写表的数据,不加是追加数据。如果增加分区必须在创建表的时候就创建分区,不然就会报错,创建分区的命令>partitionby‘根据哪个字段分区’,...原创 2022-07-30 18:05:34 · 2203 阅读 · 0 评论