Spark-sql
Knight_AL
这个作者很懒,什么都没留下…
展开
-
弱类型和强类型自定义UDAF函数
*** 自定义弱类型UDAF函数* 1.创建class继承*//*** 指定UDAF函数的参数类型【自定义avg函数,针对的参数是age,类型是Int类型】* @return*//*** 指定中间变量的类型【求一组区域的平均值,需要统计总年龄和人的个数】(因为最后要年龄除以人数才是平均年龄)* @return*//*** 指定UDAF最终计算结果类型* @return*//*** 一致性的执行* @return*//**原创 2023-11-15 10:11:56 · 235 阅读 · 0 评论 -
SparkSQL自定义UDF函数
需求:员工id正常为8位,对于不满8位的员工id左侧用0补齐。原创 2023-11-14 16:41:24 · 166 阅读 · 0 评论 -
RDD,DataFrame,DataSet三者之间的转换
【代码】RDD,DataFrame,DataSet三者之间的转换。原创 2023-11-14 15:29:01 · 60 阅读 · 0 评论 -
Spark通过三种方式创建DataFrame
【代码】Spark通过三种方式创建DataFrame。原创 2023-11-14 14:19:25 · 1194 阅读 · 1 评论 -
SparkSQL声明式
Lateral View explode(split(value," "))是列转行。原创 2023-11-14 14:59:40 · 68 阅读 · 0 评论 -
Spark中join使用joinExprs和usingColumns的区别
区别是Seq可以去重原创 2021-01-16 22:15:24 · 738 阅读 · 0 评论 -
Spark Sql内置函数
打开spark官网https://spark.apache.org/docs/latest/sql-programming-guide.html全部函数都在这里原创 2021-01-01 14:57:42 · 172 阅读 · 0 评论 -
SparkSql将mysql数据接入到es
pom.xml <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version>5.3.3</version> <exclusions> <exclusion&g原创 2020-12-22 19:46:43 · 462 阅读 · 0 评论 -
Exception in thread “main“ java.sql.SQLException: No suitable driver
报错原因没有导入mysql的依赖解决方案增添依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>${mysql.version}</version> </dependency>原创 2020-11-16 21:52:39 · 1385 阅读 · 0 评论 -
使用SparkSQL进行MySQL插入操作出现的中文乱码问题
出现乱码现象解决方案jdbc:mysql://hadoop12:3306/recommend在后面增添?useUnicode=true&characterEncoding=UTF-8再次查看结果原创 2020-11-14 19:41:12 · 1061 阅读 · 0 评论 -
SparkSql 项目实战 | 各区域热门商品Top3
数据源链接:https://pan.baidu.com/s/1lUbGmA10yOgUL4Rz2KAGmw 提取码:yh57源码在github:https://github.com/lidonglin-bit/Spark-Sql目录一.数据准备二.各区域热门商品 Top3需求简介思路分析具体实现提前准备一.数据准备我们这次 Spark-sql 操作中所有的数据均来自 Hive.首先在 Hive 中创建表, 并导入数据.一共有 3 张表: 1 张用户行为表, 1 张城市表, 1 张产品表C原创 2020-09-02 16:54:51 · 2435 阅读 · 0 评论 -
Spark-Sql快速入门系列(5) | Hive数据库
目录一.hive和spark sql的集成方式(面试可能会问到)二.spark_shell和spark_sql操作spark_shellspark_sql使用hiveserver2 + beeline三.脚本使用spark-sql四.idea中读写Hive数据1.从hive中读数据2.从hive中写数据使用hive的insert语句去写使用df.write.saveAsTable("表名")(常用)使用df.write.insertInto("表名")saveAsTable和insertInto的原理一.原创 2020-08-28 17:39:14 · 490 阅读 · 0 评论 -
Spark-Sql快速入门系列(4) | JDBC读写数据
目录一.JDBC从 jdbc 读数据通用写法专用写法向 jdbc 写入数据通用写法专用写法一.JDBC Spark SQL 也支持使用 JDBC 从其他的数据库中读取数据. JDBC 数据源比使用 JdbcRDD更爽一些. 这是因为返回的结果直接就是一个 DataFrame, DataFrame更加容易被处理或者与其他的数据源进行 join. Spark SQL 可以通过 JDBC 从关系型数据库中读取数据的方式创建 DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系原创 2020-08-27 22:33:57 · 481 阅读 · 0 评论 -
Spark-Sql快速入门系列(3) | 读/写数据源
Scala/JavaMeaningSaveMode.ErrorIfExists(default) “error”(default)如果文件已经存在则抛出异常SaveMode.Append “append”如果文件已经存在则追加SaveMode.Overwrite “overwrite”如果文件已经存在则覆盖SaveMode.Ignore “ignore”如果文件已经存在则忽略...原创 2020-08-27 20:22:25 · 132 阅读 · 0 评论 -
Spark-Sql快速入门系列(2) | 自定义SparkSQL函数
目录一.数据源二.自定义 UDF 函数三.用户自定义聚合函数sum()聚合avg()聚合四.自定义强类型聚合函数(了解)一.数据源{"name":"lisi","age":20}{"name":"ww","age":10}{"name":"zl","age":15}{"name":"zy","age":30}二.自定义 UDF 函数import org.apache.spark.sql.SparkSessionobject UDFDemo { def main(args: Array原创 2020-08-27 18:44:59 · 239 阅读 · 0 评论 -
Spark-Sql快速入门系列(1) | RDD, DataFrame和 DataSet 之间的关系
目录RDD, DataFrame和 DataSet 之间的关系1.三者的共性2.三者的区别RDDDataFrameDataSet3.三者的互相转换4.简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系? (笔试重点)RDD, DataFrame和 DataSet 之间的关系 在 SparkSQL 中 Spark 为我们提供了两个新的抽象,分别是DataFrame和 DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看: RDD (Spark1.0) —>原创 2020-08-25 22:36:39 · 271 阅读 · 0 评论