Spark DataSource表

一、什么是DataSource表
二、DataSource表的优势
三、DataSource表的缺点
四、建DataSource表方法
 

一、什么是DataSource表

Spark除了兼容Hive表之外,还支持datasource表。Spark针对Datasource表做了多项优化,读写性能较Hive表有非常大的提升

二、DataSource表的优势

(1)写入文件方面

DataSource表在文件写入阶段并不会挨个重命名小文件,而是直接将整个临时文件目录重命名为分区名后移动到对应位置,大大减少了rename操作时间,进而减少了任务执行的总时间,在HDFS压力比较大的时候,对任务的执行时间影响非常小。

而Spark在写Hive表时,如果小文件较多,会在rename小文件和分区的阶段耗费大量时间,如下所示:

 

可以看到IDE中显示的任务执行时间,比Spark UI中各stage实际执行的总时间要长,实际上多出来的长达几分钟的时间,是在将HDFS的临时文件rename到目标目录。 

如上图所示,在Spark将数据写入到Hive表的过程中,每个task产生的临时文件都将被写入到临时目录,而每一个临时文件都会被rename到目标HDFS目录下。小文件数量越多,该rename操作所花费的时间就越长。

(2)读取文件方面

DataSource在读文件的时候会将小文件合并,提升读的效率。

三、DataSource表的缺点

(1)DataSource表无法用多线程写入同一个表的不同分区

(2)创建Parquet格式表时,如果字段类型为数组,该字段不能有空值,否则读写时会报错。

四、DataSource表方法

CREATE TABLE database.tablename (

`job_flow_name`            string                       ,

 ......

`statis_date`                   string          – 必须先定义分区字段

)

using parquet                           – SparkSQL内置格式都支持,如parquet、ORC等

partitioned by (statis_date);     – 这里不需要指定分区字段的类型

-------------------------------------------------------------------------------------------------------------------

根据查询建临时表:

CREATE TABLE tmpbase.tmpname 

using parquet as

select t1.xxxx,

           t2.xxx,

......

;

下图所示内容摘自右方链接中的《Spark权威指南》:

关注微信公众号【飞哥大数据】,回复666 获取2022年100+公司面试真题,以及spark与flink面试题汇总

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据源(dataSource)是指用于填充数据的对象或接口。它可以是任何实现了System.Collections.IEnumerable接口的对象,如System.Data.DataView、System.Collections.ArrayList、System.Collections.Hashtable、数组或实现了IListSource接口的对象。 在Java中,JDBC2.0提供了javax.sql.DataSource接口,它负责建立与数据库的连接。当在应用程序中访问数据库时,通过引用DataSource接口来获取数据库连接对象,而不需要编写连接数据库的代码。数据源会建立多个数据库连接,并将这些连接保存在数据库连接池中。当需要访问数据库时,只需从连接池中获取一个空闲的数据库连接。在程序访问数据库结束后,数据库连接会被放回连接池中,以便其他程序继续使用。这样可以减少频繁建立和断开数据库连接的资源消耗,提高性能。 数据源也可以作为JNDI(Java命名和目录接口)资源的一种形式。通过将"DataSource"字符串与实际的DataSource对象绑定,可以方便地获取数据源。使用数据库连接池的好处是避免了每次访问数据库都需要重新建立连接和销毁连接的开销,同时也减少了内存和CPU的使用。<span class="em">1</span><span class="em">2</span> #### 引用[.reference_title] - *1* [C#数据绑定控件中的DataSource属性浅谈](https://download.csdn.net/download/weixin_38577922/13061123)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [DataSource数据源简单理解](https://blog.csdn.net/qq_40910541/article/details/80771607)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值