![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
大曲·蜗牛
努力成为一个大数据的大佬
展开
-
spark 2.4.4 整合 hudi(蝴蝶) 报错集合
1.路径报错org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;org.apache.hudi.exception.HoodieException: 'path' must be specified.org.apache.hudi.exception.HoodieException: 'path' must be specified.原创 2021-09-28 14:36:22 · 1222 阅读 · 0 评论 -
spark 读写 clickhouse
一.pom.xml<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.3</version> </dependenc原创 2021-09-18 17:00:40 · 1842 阅读 · 0 评论 -
编写SparkSql 程序 把数据从mysql抽取在写入到mysql
声明:在这里不在显示创建mysql和pom.xml文件1.创建配置文件application.conf# mysql数据信息mysql.driver="com.mysql.jdbc.Driver"mysql.url="jdbc:mysql://localhost:3306/datax?useUnicode=true&characterEncoding=UTF-8&useSSL=true"mysql.user="root"mysql.password ="root"mys.原创 2020-06-02 09:18:04 · 836 阅读 · 0 评论 -
Spark SQL
hive和SparkSQL区别hive将SQL转为MapReduce SparkSql可以简单理解将SQL转为RDD+优化在执行spark处理数据类型Spark 的 RDD 主要用于处理 非结构化数据 和 半结构化数据结构化SparkSQL中的SQL主要用于处理 结构化数据(较为规范的半结构化数据也可以处理)DataFrameDataFrame 是一种以RDD为基础的分布式数据集,类似传统数据库的二维表,DataFrame带有Schema元信息(列名和类型)即DataFr...原创 2020-11-23 14:24:43 · 143 阅读 · 0 评论 -
Spark 基础 II
Spark 基础 IIRDD 叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合RDD的主要属性: 1.分区列表 2.计算函数 3.依赖关系4.分区函数 5,最佳位置RDD的方法/算子分类 1.Transformation 转换算子 :返回一个新的RDD 2.Action动作算子:返回值不是RDDAPI 演示 1.WordCount#wordcount入门小程序val res...原创 2020-11-23 10:56:41 · 372 阅读 · 0 评论 -
Spark 基础篇 I
Spark 基础篇 IApache Spark 适用于大规模数据处理的统一分析引擎。Spark的生态圈: 1.Spark Core 实现spark的基础功能,包含rdd、任务调度、内存管理、错误恢复等 2.Spark SQL:spark用来操作结构化数据的程序 3.Spark Streaming:spark提供对实时数据进行流式计算的组件 4.SparkMlib:提供常见的机器学习的功能库 ...原创 2020-11-18 14:07:05 · 273 阅读 · 1 评论 -
SparkSQL 简化
1.Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame(底层也是RDD)并且作为分布式SQL查询引擎的作用。2.Spark SQL 的特点:1.易整合,2.统一的数据访问,3.兼容Hive,4.标准的数据连接3.DataFrame:是一种以RDD为基础的分布式数据集,类似于传统数据库的二维表格,DataFrame带有Schema元信息(可以理解为数据库的列名和类型),即DataFrame所表示的二维表数据集的每一列都带有名称和类...原创 2020-06-03 13:11:29 · 118 阅读 · 0 评论