![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 67
实时即未来
这个作者很懒,什么都没留下…
展开
-
SparkStreaming
1、SparkStreaming概述数据处理类型分类 静态数据 数据源是不变的、有限的、显式离散的 多适用于批量计算、离线计算 流数据 数据是变动的、无限的、连续的 多适用于实时计算,能在秒级、秒内处理完成 实时数据分类 小时级 分钟级 秒级 sparkstreaming是什么 一句话总结:微批处理的流式(数据)实时计算框架。 原理:是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,即可原创 2021-11-23 14:23:00 · 5385 阅读 · 0 评论 -
Spark Sql
一、概述SparkSql是什么 Spark SQL是Spark处理数据的一个模块 专门用来处理结构化数据的模块,像json,parquet,avro,csv,普通表格数据等均可。 与基础RDD的API不同,Spark SQL中提供的接口将提供给更多关于结构化数据和计算的信息,并针对这些信息,进行额外的处理优化。 SparkSql操作方式说明 SparkSql shell 类似于hive shell DataFrames API 最早专为sql on spark设计的数原创 2021-11-23 14:15:59 · 287 阅读 · 0 评论 -
Spark基础之求平均数
1、引入文件var avgAdd=sc.textFile("hdfs:///user/yanyufei/spark/hello2")2、输出文件内容avgAdd.map(item=>{var lineArr=item.split("\t");(lineArr(0),lineArr(1))}).foreach(println)3、赋1操作avgAdd.map(item=>{var lineArr=item.split("\t");(lineArr(0),lineArr(1原创 2021-11-13 22:40:43 · 1987 阅读 · 0 评论