Spark SQL
Thomson617
岁月静好,仍需负重前行!
向着未来努力奔跑,奋斗之年永不停歇!
展开
-
Spark SQL 的数据加载与保存(load , save)
Spark SQL主要是操作DataFrame,DataFrame本身提供了save和load的操作.Load:可以创建DataFrame;Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。SparkSQL的保存模式 * SaveMode.ErrorIfExist ----->default...原创 2018-11-17 23:29:09 · 2258 阅读 · 0 评论 -
Spark SQL之数据源(Data Source)与保存模式(Save Modes)
本篇大纲:(一).Generic Load/Save Functions(二).Parquet Files(三).ORC Files(四).JSON Files(五).Hive Tables(六).JDBC To Other Databases(七).Avro Files(八).TroubleshootingSparkSQL支持通过DataFrame接口对各种数据源进行操作。D...原创 2019-02-22 15:33:06 · 3419 阅读 · 0 评论 -
Spark SQL之性能优化
对于某些工作负载,可以通过在内存中缓存数据或打开一些实验性选项来提高性能。在内存中缓存数据Spark SQL可以通过调用Spark .catalog. cachetable(“tableName”)或dataFrame.cache()来使用内存中的柱状格式缓存表。然后Spark SQL将只扫描所需的列,并自动调优压缩,以最小化内存使用和GC压力。可以调用spark.catalog. unach...原创 2019-02-22 17:13:13 · 564 阅读 · 0 评论 -
Spark SQL之分布式SQL引擎
Spark SQL还可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。在这种模式下,终端用户或应用程序可以直接与Spark SQL交互来运行SQL查询,而不需要编写任何代码。Running the Thrift JDBC/ODBC server这里实现的Thrift JDBC/ODBC服务器对应于Hive 1.2.1中的HiveServer2。您可以使用Spark或Hive 1.2.1...原创 2019-02-22 17:12:58 · 796 阅读 · 0 评论 -
Spark SQL之引用(数据类型,NaN语义及算术运算)
Data Types(数据类型)Spark SQL和DataFrames支持以下数据类型:Numeric types(数字类型)ByteType: 表示1字节有符号整数。数字的范围是从-128到127。ShortType: 表示2字节有符号整数。数字的范围从-32768到32767。IntegerType: 表示4字节有符号整数。数字的范围是从-2147483648到2147483647...原创 2019-02-22 17:11:07 · 2200 阅读 · 0 评论 -
MySQL、Oracle、Sql Server、Hive、Spark SQL、Flink SQL总结
本文主要讲解各类SQL语言的优缺点、数据类型及SQL语法的区别,其它区别可参加各官网MySQL官网地址:https://dev.mysql.com/doc/refman/8.0/en/programs.html优点:(1).体积小、速度快、总体拥有成本低,支持多种操作系统,使用简单,开放源码,稳定性高;(2).提供的接口支持多种语言连接操作。可以工作在不同的平台上。支持C、C++、Jav...原创 2019-02-20 17:19:25 · 5748 阅读 · 0 评论