old_R-CSDN博客

原创 Spark的Java API例子详解

Spark的Java API例子详解 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import ...

2019-11-25 13:55:04 357

原创 HIve面试题（一）

1. Hive 有哪些方式保存元数据，各有哪些特点。自身带的一个数据库derby 也可以将原数据库设置为MYSQL 2. Hive内部表和外部表的区别 1、在导入数据到外部表，数据并没有移动到自己的数据仓库目录下，也就是说外部表中的数据并不是由它自己来管理的，而是由！而内部表是由hive本身管理的； 2、在删除表的时候，Hive将会把属于表的元数据和数据全部删掉；而删除外部表的时候...

2019-09-30 17:03:57 1521

原创 Spark处理数据如何获得行号

Spark处理数据如何获得行号因为Spark并行的处理数据，所以你不能在自己的driver program中计数到底是处理到第几个。Spark提供了zipWithIndex可以给你提供索引号。这个索引号是全局有序和唯一的。 public RDD<scala.Tuple2<T,Object>> zipWithIndex() Zips this RDD with its el...

2019-09-26 21:43:48 1295

原创 hive中提高代码运行效率的参数配置及代码优化

今天整理下平时hive中用以提高代码运行效率的几个参数，和大家分享一下： 1、set mapreduce.map.memory.mb=5120; 此参数是设置每个map使用内存的大小，默认1024M，这个参数是控制map数量的关键参数。如果需要处理的文件较多或较大时，则分开处理效率会较快，如果文件较少或较小时会造成map资源的浪费。 2、set mapreduce....

2019-09-14 22:22:27 900

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人