spark系列
文章平均质量分 65
spark基础
星瀚光晨
寓沉雄于静穆,藏锋芒于深思。
展开
-
Scala对象转JSON
Scala对象转JSONscala类转json字符串对象转jsonscala类转json字符串对象转json原创 2022-05-25 14:23:36 · 921 阅读 · 0 评论 -
Spark-SQL教程
目录创建SparkSession通过SparkSession创建SparkContext手动创建DataFrame创建DataSetDataSet的使用 - 读取文本文件DataSet的使用 - 读取MySQLSpark_On_Hivestandalone模式hive集群模式搭建hive-metastore服务的配置hiveserver2服务的配置hive 的命令行简单介绍IDEA使用spark程序交互hiveSpark-Sql服务SPARK整合HIVESpark-Sqlspark-sql函数自定义函数原创 2021-11-28 09:05:33 · 4507 阅读 · 0 评论 -
spark3.1.2基于yarn的集群安装
spark3.1.2基于yarn的集群安装准备工作集群配置准备工作wget https://www.apache.org/dyn/closer.lua/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz -O /opt/spark-3.2.0-bin-hadoop3.2.tgz# 创建统一目录mkdir -p /opt/bigdata/spark# 解压tar xf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/b原创 2021-10-26 22:03:45 · 889 阅读 · 0 评论 -
Spark-RDD操作
Spark-RDD操作什么是RDD怎么理解RDD创建RDD3中方式读取数据并产生RDD读取普通文本数据读取json格式的数据读取CSV,TSV格式的数据读取sequenceFile格式的数据读取object个数的数据读取HDFS中的数据读取MySQL数据库中的数据保存RDD的数据到外部存储保存成普通文件保存成json文件保存成CSV,TSV格式文件保存成sequenceFIle文件写数据到HDFS写入到MySQL数据库RDD的高级操作RDD缓存缓存与释放RDDRDD的检查点机制(Checkpoint)RDD原创 2021-10-12 15:25:23 · 668 阅读 · 0 评论 -
RDD的算子大全
RDD的算子大全RDD的算子大全基础转换操作0. Spark初始化1.map操作2.flatMap操作3.filter操作4.distinct去重操作5.mapPartions操作6. mapPartionWithIndex 操作7.union操作8. intersection交集9. subtract差集10. cartesian 笛卡尔积11.repartion重新分区12. randomSplit按权重拆分13. glom分区变数组14.zip 拉链操作15.zipPartition操作16.zipW原创 2021-10-10 20:54:14 · 680 阅读 · 0 评论 -
Spark-2.3.4集群安装部署
Spark集群安装部署安装包准备Standalone部署Spark集群修改默认配置集群启动命令介绍集群启动验证Standalone模式部署高可用Master集群修改默认配置分发配置,集群启动验证集群spark-submit提交程序查看提交程序的帮助说明基于yarn模式部署Spark集群主要操作配置文件hadoop配置文件添加mapred-site.xml文件添加配置分发配置文件启动yarn启动spark验证安装包准备下载包2.3.4版本wget https://archive.apache.org/原创 2021-10-09 08:50:34 · 355 阅读 · 0 评论