![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 64
晚点吧
。。。。点
展开
-
spark graph基础(一)
spark graphX基本操作原创 2023-03-02 20:58:03 · 331 阅读 · 0 评论 -
spark sql 自定义UDAF函数
spark sql 自定义udaf 函数原创 2021-12-20 21:27:26 · 694 阅读 · 0 评论 -
Spark RDD常用转换算子
value 类 1、map 2、mapPartitions 3、mapPartitionsWithIndex 4、flatMap 5、glom 6、groupBy 7、filter 8、distinct 9、coalesce 10、repartition 11、sortBy双value类型 1、intersection 2、union 3、subtract 4、zipKey-Value 类型 1、partitionBy 2、reduceByKey 3、groupB原创 2021-12-16 23:15:40 · 1836 阅读 · 0 评论 -
spark连接hive
1 将hive中配置文件conf中的hive-site.xml导入到spark 中conf,cp /home/software/hadoop-2.7.1/etc/hadoop/core-site.xml /home/software/spark-2.0.1-bin-hadoop2.7/conf/在hive-site.xml中添加如下属性<property><name>hive.metastore.uris</name><value>thrif原创 2021-03-04 01:11:18 · 115 阅读 · 1 评论 -
pyspark sparkStreaming
1、sparkStreaming概述1.1 SparkStreaming是什么它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务,数据一般都是在固定位置上,通常我们写好一个脚本,每天定时去处理数据,计算,保存数据结果。这类任务通常是T+1(一天一个任务),对实时性要求不高。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lOXxEes0-161452原创 2021-02-28 23:06:32 · 1180 阅读 · 0 评论 -
pyspark Spark SQL
1、Spark SQL 概述Spark SQL概念Spark SQL is Apache Spark’s module for working with structured data.它是spark中用于处理结构化数据的一个模块Spark SQL历史Hive是目前大数据领域,事实上的数据仓库标准。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mPnE8yAy-1614524559940)(pics/s9.png)]Shark:shark底层使用原创 2021-02-28 23:04:30 · 815 阅读 · 0 评论