![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 86
langzitianya
hao
展开
-
pyspark 2.4.8 API学习
以下内容基于Spark2.4.8的Python版API文档。由于pyspark只是调用JVM里的对应方法,所以函数对于scala也基本适用。原创 2023-07-12 18:34:36 · 719 阅读 · 0 评论 -
Spark学习笔记(四)
准实时(秒,分钟级别),微批次(时间)的数据处理框架Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语,如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。原创 2023-03-14 19:45:53 · 363 阅读 · 0 评论 -
Spark学习笔记(三)
SparkSQL原创 2023-01-19 17:34:33 · 1713 阅读 · 0 评论 -
Spark学习笔记(二)
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。➢ 弹性⚫ 存储的弹性:内存与磁盘的自动切换;⚫ 容错的弹性:数据丢失可以自动恢复;⚫ 计算的弹性:计算出错重试机制;⚫ 分片的弹性:可根据需要重新分片。➢ 分布式:数据存储在大数据集群不同节点上➢ 数据集:RDD 封装了计算逻辑,并不保存数据。原创 2022-11-26 18:31:41 · 1192 阅读 · 1 评论 -
spark sql保存hive表时的压缩设置
文件输出格式表属性textcsvjsonparquetorc文件输出格式配置项orc可用值:"none", "uncompressed", "snappy", "zlib", "lzo"parquet可用值:"none", "uncompressed", "snappy", "gzip", "lzo", "lz4", "brotli", "zstd"orc,parquet以外可用值:"true","false"原创 2022-11-07 15:54:15 · 1686 阅读 · 0 评论 -
spark yarn集群遇到的问题与解决方法
spark yarn集群遇到的问题与解决方法原创 2022-11-06 17:31:31 · 1312 阅读 · 0 评论 -
HDFS常用命令
hadoop classpath: 打印当前hadoop环境的配置路径。命令的形式:hdfs dfs -linux命令。hadoop fs等同于hdfs dfs。这与linux中命令操作是一样的。转载 2022-10-26 11:18:33 · 5954 阅读 · 0 评论 -
Spark学习笔记(一)
以下笔记基于对尚硅谷spark教程的学习,Spark版本3.0。原创 2022-10-11 21:20:26 · 1061 阅读 · 0 评论 -
Flink学习笔记(四)
以下笔记基于对尚硅谷Java版Flink(2020版)的学习,Flink版本1.10原创 2022-10-04 21:44:06 · 2479 阅读 · 0 评论 -
Flink学习笔记(三)
以下笔记基于对尚硅谷Java版Flink(2020版)的学习,Flink版本1.10。原创 2022-10-03 20:42:21 · 862 阅读 · 0 评论 -
Flink学习笔记(二)
以下笔记基于对尚硅谷Java版Flink(2020版)的学习,Flink版本1.10原创 2022-10-03 17:01:53 · 1262 阅读 · 0 评论 -
Flink学习笔记(一)
以下笔记基于对尚硅谷Java版Flink(2020版)的学习,Flink版本1.10。原创 2022-10-02 17:47:24 · 867 阅读 · 0 评论