自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Spark的Java API例子详解

Spark的Java API例子详解 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import ...

2019-11-25 13:55:04 357

原创 HIve面试题(一)

1. Hive 有哪些方式保存元数据,各有哪些特点。 自身带的一个数据库derby 也可以将原数据库设置为MYSQL 2. Hive内部表和外部表的区别 1、在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的,而是由!而内部表是由hive本身管理的; 2、在删除表的时候,Hive将会把属于表的元数据和数据全部删掉;而删除外部表的时候...

2019-09-30 17:03:57 1521

原创 Spark处理数据如何获得行号

Spark处理数据如何获得行号 因为Spark并行的处理数据,所以你不能在自己的driver program中计数到底是处理到第几个。Spark提供了zipWithIndex可以给你提供索引号。这个索引号是全局有序和唯一的。 public RDD<scala.Tuple2<T,Object>> zipWithIndex() Zips this RDD with its el...

2019-09-26 21:43:48 1295

原创 hive中提高代码运行效率的参数配置及代码优化

今天整理下平时hive中用以提高代码运行效率的几个参数,和大家分享一下: 1、set mapreduce.map.memory.mb=5120; 此参数是设置每个map使用内存的大小,默认1024M,这个参数是控制map数量的关键参数。如果需要处理的文件较多或 较大时,则分开处理效率会较快,如果文件较少或较小时会造成map资源的浪费。 2、set mapreduce....

2019-09-14 22:22:27 900

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除