Spark
jiuweiC
这个作者很懒,什么都没留下…
展开
-
Spark 易错
1.lazyspark从driver->executor,对象必须可序列化。如果某个函数的计算方式比较耗费性能,我们可以将函数结果存为lazy的属性值。但如果这个属性是不可序列化的,则可设置为lazy,将其传到executor再加载这个属性。但这样使用要非常小心,因为如果在driver不小心初始化了这个属性值,传到executor就会报错,这个错误是在编译阶段无法发现的,只有在实际运行时才能发现。...原创 2021-01-07 21:11:27 · 125 阅读 · 0 评论 -
Spark文件读取
1.SparkSession获取文件内信息 val sparkConf = new SparkConf sparkConf.setMaster("local").setAppName("TextFileTest") sparkConf.set("spark.executor.instances", "2") sparkConf.set("spark.executor.cores", "4") val ss = SparkSession.builder.config(sp原创 2020-07-30 18:00:34 · 1176 阅读 · 0 评论 -
Spark笔记
1.shuflle在Spark或Hadoop MapReduce的分布式计算框架中,数据被按照key分成一块一块的分区,打散分布在集群中各个节点的物理存储或内存空间中,每个计算任务一次处理一个分区,但map端和reduce端的计算任务并非按照一种方式对相同的分区进行计算,例如,当需要对数据进行排序时,就需要将key相同的数据分布到同一个分区中,原分区的数据需要被打乱重组,这个按照一定的规则对数据重新分区的过程就是Shuffle(洗牌)。参考Spark Shuffle的技术演进2.RDD依赖关系与st原创 2020-07-29 21:20:30 · 221 阅读 · 0 评论 -
Spark常用
一、合并 group by的值concat_ws 不去重concat_ws(',',collect_set(product_code)) as product_code,collect_set 去重特殊用法列转行select user,concat_ws(',',collect_set(concat(order_type,'(',order_number,')'))) order...原创 2020-03-16 13:44:48 · 160 阅读 · 0 评论 -
Mac Spark安装及其IDE使用
一、首先搭建hadoop环境https://blog.csdn.net/jiuweiC/article/details/104414651二、安装scala命令行执行:brew install scala执行完成后,终端输入:scala -version 进行查看,如下表明安装成功: scala -versionScala code runner version 2.12.8 -- C...原创 2020-02-20 17:58:00 · 810 阅读 · 0 评论 -
MAC hadoop3 安装
一、hadoop安装1.安装java见 https://blog.csdn.net/jiuweiC/article/details/1043567512. 配置SSH首先在系统里打开远程登录,位置在 System Preference -> Sharing 中,左边勾选 Remote Login,右边选择 All Users。如果不执行该步骤 后面会报错ssh: connect ...原创 2020-02-20 17:40:40 · 414 阅读 · 0 评论 -
Spark常用命令
1.提交任务hdfs dfs -put SpeakerBigData-1.0-SNAPSHOT.jar /spark/hadoop/my_jars/2.提交依赖3.执行任务/data/software/spark-2.2.1/bin/spark-submit --class com.anker.eufy.device.DeviceRePurchase --master yarn --co...原创 2020-02-16 17:48:22 · 307 阅读 · 0 评论