sparkSQL
花和尚也有春天
会收集一些不错的文章,时常品读,也学着自己总结一些东西,坚持努力的方向!
展开
-
spark:sparksql: cache
参考:https://blog.csdn.net/lsshlsw/article/details/48662669?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~baidu_landing_v2~default-1-48662669.nonecase原创 2020-08-03 01:31:28 · 717 阅读 · 0 评论 -
spark:sparksql:jdbc测试(mysql)
/** * 数据源:JDBC * @param spark */ def testJDBC(spark: SparkSession): Unit = { // 从机器1的mysql读取数据 println("========================第一种读取mysql方式================================") //默认partation为1 val url1: String = "jdbc:mys.原创 2020-08-02 15:38:59 · 677 阅读 · 0 评论 -
spark:sparksql:通用的数据 加载/保存功能
Spark SQL 的数据源------通用的数据 加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作,也可以用来创建临时视图。将DataFrame 注册为临时视图允许您对其数据运行SQL查询。本节介绍使用Spark Data Sources加载和保存数据的一般方法,然后介绍可用于内置数据源的特定选项。1, 常用的加载和保存功能。 最简单的形式,默认的数据源(parquet除非...原创 2020-08-01 17:49:27 · 347 阅读 · 0 评论 -
spark:Action算子:show()
show:展示数据 以表格的形式在输出中展示jdbcDF中的数据,类似于select * from spark_sql_test的功能。 show方法有四种调用方式,分别为,(1)show 只显示前20条记录。 示例:jdbcDF.show结果: (2)show(numRows: Int) 显示numRows条 示例:jdbcDF.show(3) 结果:(3)show(truncate: Boolean) 是...原创 2020-07-29 23:04:02 · 7587 阅读 · 1 评论 -
Spark:RDD checkpoint容错机制
经过上一节的学习,我们了解到合理地将RDD持久化/缓存,不仅直接避免了RDD的重复计算导致的资源浪费和占用还提升了RDD的容错性,而且间接提升了分析任务的完成效率,那么为什么又会需要基于checkpoint的容错机制,在什么情况下需要设置checkpoint呢?对RDD进行checkpoint操作,会将RDD直接存储到磁盘上,而不是内存,从而实现真正的数据持久化。checkpoint实际上对RDDlineage(RDD依赖关系图谱)的辅助和重新切割修正,当RDD依赖关系过于冗长和复杂时,即依赖...原创 2020-06-29 00:27:39 · 558 阅读 · 0 评论 -
Spark:持久化存储等级选取策略 /persist() / cache() /Storage Level
那么我们应该如何选取持久化的存储级别呢?实际上存储级别的选取就是Memory与CPU之间的双重权衡,可以参考下述内容:(1)如果RDD的数据量对于集群内存容量压力较小,可以很好地兼容默认存储级别(MEMORY ONLY),那么优先使用它,这是CPU工作最为高效的种方式, 可以很好地提高运行速度。(2)如果(1)不能满足,即集群的内存资源相较于cpu资源十分匮乏,则尝试使用MEMORY_ ONLY_ SER,且选择一种快速 的序列化工具,也可以达到一种不错的效果。(3)一般情况下不要把数据持久原创 2020-06-28 22:57:52 · 817 阅读 · 0 评论 -
Spark: sortBy和sortByKey函数详解
https://blog.csdn.net/hellojoy/article/details/81162741原创 2020-06-27 00:52:05 · 453 阅读 · 0 评论 -
Spark:对于提交命令的理解
如何使用spark-submit将打包好的jar提交到Spark上运行?打开终端,在终端中输入spark-submit --help, 可以查看spark-submit的详细帮助。下面说一下 spark-submit 的详细帮助。(1) --class 指向程序中的主类。 例如:--class "helloworld"(2) --master 是指集群的master URL。 举个例子,在本地运行就可以这样写:local模式:- -master local /...原创 2020-06-26 19:10:24 · 848 阅读 · 0 评论 -
spark:sparksql:dataset、dataframe、rdd互转关系
原创 2020-06-12 14:50:32 · 266 阅读 · 0 评论 -
spark:sparksql:sparksql的agg函数,作用:在整体DataFrame不分组聚合
1、agg(expers:column*) 返回dataframe类型 ,同数学计算求值df.agg(max("age"), avg("salary"))df.groupBy().agg(max("age"), avg("salary"))2、agg(exprs: Map[String, String])返回dataframe类型 ,同数学计算求值 map类型的df.agg(Map("age" -> "max", "salary" -> "avg"))df.groupBy()....原创 2020-05-24 00:53:51 · 2599 阅读 · 0 评论 -
Spark:coalesce()方法和repartition()方法
https://blog.csdn.net/olizxq/article/details/82808412原创 2020-05-23 21:54:52 · 1415 阅读 · 0 评论 -
hive:sparksql:针对反斜杠的正则替换问题
hive中如何替换反斜杠:sparksql中如何替换反斜杠:select position_name,code,senior_name,parent_code,level from position_name_data pnd right join senior_function_data sfd on regexp_replace(sfd.senior_name,'\\\\'...原创 2020-04-27 11:06:30 · 3456 阅读 · 0 评论 -
Oracle:union和 union all操作符区别
SQL UNION 操作符UNION 操作符用于合并两个或多个 SELECT 语句的结果集。请注意,UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。同时,每条 SELECT 语句中的列的顺序必须相同。Union因为要进行重复值扫描,所以效率低。如果合并没有刻意要删除重复行,那么就使用Union All。SQL UNION 语法SELECT ...转载 2018-09-19 15:13:18 · 325 阅读 · 0 评论 -
Spark:SparkSQL与Hive on Spark(Shark)的比较
简要介绍了SparkSQL与Hive on Spark的区别与联系 一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。 架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。 Spark特点Spark可以部署在YARN上...转载 2018-09-19 17:46:50 · 4106 阅读 · 0 评论 -
SparkSQL
目录SparkSQL的shuffle过程SparkSQL结构化数据SparkSQL解析SparkSQL的shuffle过程Spark SQL的核心是把已有的RDD,带上Schema信息,然后注册成类似sql里的”Table”,对其进行sql查询。这里面主要分两部分,一是生成SchemaRD,二是执行查询。如果是spark-hive项目,那么读取metadata信息作为S...转载 2018-10-17 22:40:24 · 680 阅读 · 0 评论 -
Spark SQL :操作各种数据源笔记
参考spark官网DT大数据梦工厂spark sql操作各种数据源的数据流转 :各种数据源的输入 => RDD(lines) =>RDD(Rows) => DataFrame(注册临时表) => 分析与过滤(各种sql操作、机器学习等)=> RDD(Row) => 各种格式的输出场景Spark sql怎么操作各种数据源: json格式的文...转载 2018-10-09 00:01:56 · 315 阅读 · 0 评论 -
spark:sparksql:读取文件/读取hive表/写出到hive/写出到mysql
package bi.tagimport java.util.Propertiesimport bi.utils.{ConfigUtils, KoboldAppUtil}import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.{SaveMode, SparkSession}import org.slf4...原创 2019-08-07 16:38:03 · 2853 阅读 · 5 评论 -
spark:sparksql:读取各数据源(mysql,json,txt,hive)并推送到hive或mysql
测试数据:people.json{"name":"andy"}{"name":"len"}{"name":"marry","age":19}{"name":"tom","age":29}{"name":"mike","age":39}people.txt1,tang1,102,tang2,203,tang3,304,tang4,405,tang5,50pa...原创 2019-08-15 22:52:18 · 1367 阅读 · 0 评论 -
Spark SQL:实现日志离线批处理
原文参考:https://www.cnblogs.com/kinghey-java-ljx/p/8543552.html转载 2018-09-17 23:52:14 · 1392 阅读 · 0 评论