spark
辣条好辣
这个作者很懒,什么都没留下…
展开
-
spark 读取hive数据 写入hbase
1,saveAsNewAPIHadoopDataset批量写入(千万级别以下使用)import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormatim...转载 2020-03-22 17:37:25 · 2433 阅读 · 2 评论 -
使用spark写数据到Hbase的三种方式
方式一:直接使用HBase Table的PUT方法import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Table}import org.apache.hadoop.hbase.util.Byt...转载 2020-01-01 23:03:05 · 1256 阅读 · 0 评论 -
Spark分区数、task数目、core数目、worker节点数目、executor数目梳理
转载地址每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生...转载 2019-10-14 22:33:41 · 736 阅读 · 0 评论 -
spark partition 和HDFS的block
hdfs-block位于存储空间;spark-partition位于计算空间;hdfs-block的大小是固定的;spark-partition大小是不固定的;hdfs-block是有冗余的、不会轻易丢失;spark-partition(RDD)没有冗余设计、丢失之后重新计算得到;注意:textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默认split大...原创 2019-03-11 20:46:05 · 813 阅读 · 0 评论 -
spark调优
Spark优化参考资料文档下载地址:https://download.csdn.net/download/qq_36306340/11472932分配更多的资源○ 搭建集群(Spark-env.sh)■ SPARK_WORKE_CORES■ SPARK_WORKER_MEMORY○ 提交任务■ ./spark-submit --master node:port --executor-...原创 2019-08-05 13:14:38 · 204 阅读 · 0 评论 -
spark shuffle调优
1:sparkconf.set(“spark.shuffle.file.buffer”,“64K”) --不建议使用,因为这么写相当于硬编码 --最高2:在conf/spark-defaults.conf —不建议使用,相当于硬编码 --第三3:./spark-submit --conf spark.shuffle.file.buffer=64 --conf spark.reducer.max...原创 2019-08-05 16:14:49 · 526 阅读 · 0 评论