- 博客(4)
- 收藏
- 关注
原创 Spark的Java API例子详解
Spark的Java API例子详解 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import ...
2019-11-25 13:55:04
357
原创 HIve面试题(一)
1. Hive 有哪些方式保存元数据,各有哪些特点。 自身带的一个数据库derby 也可以将原数据库设置为MYSQL 2. Hive内部表和外部表的区别 1、在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的,而是由!而内部表是由hive本身管理的; 2、在删除表的时候,Hive将会把属于表的元数据和数据全部删掉;而删除外部表的时候...
2019-09-30 17:03:57
1521
原创 Spark处理数据如何获得行号
Spark处理数据如何获得行号 因为Spark并行的处理数据,所以你不能在自己的driver program中计数到底是处理到第几个。Spark提供了zipWithIndex可以给你提供索引号。这个索引号是全局有序和唯一的。 public RDD<scala.Tuple2<T,Object>> zipWithIndex() Zips this RDD with its el...
2019-09-26 21:43:48
1295
原创 hive中提高代码运行效率的参数配置及代码优化
今天整理下平时hive中用以提高代码运行效率的几个参数,和大家分享一下: 1、set mapreduce.map.memory.mb=5120; 此参数是设置每个map使用内存的大小,默认1024M,这个参数是控制map数量的关键参数。如果需要处理的文件较多或 较大时,则分开处理效率会较快,如果文件较少或较小时会造成map资源的浪费。 2、set mapreduce....
2019-09-14 22:22:27
900
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人