![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
sparks sql
明月不归尘
这个作者很懒,什么都没留下…
展开
-
2020-12-16
spark-sql 读取hive报出Caused by: java.lang.NullPointerException**20/12/16 14:37:27 ERROR SparkSQLDriver: Failed in [select student_id from tmp.tmp_user_device_log_info_temp where dt = '2020-10-02' limit 10]java.lang.RuntimeException: serious problem** at or原创 2020-12-16 14:59:01 · 417 阅读 · 0 评论 -
spark读取postgresql中的数据
spark读取postgresql中的数据: 代码实现val pgUrl = "jdbc:postgresql://ip:5433/databaseName"// 读取pg中的数据val df1 = hiveContext.read.format("jdbc") .option("url", pgUrl) .option("user", "user") .opti...原创 2018-08-17 12:18:45 · 3304 阅读 · 0 评论 -
spark将数据加载到postgresql中的Scala实现
spark将数据加载到postgresql中: 方法一:def save2Postgresql(jdbcDf: DataFrame, url: String, tableName: String) = { jdbcDf.insertIntoJDBC(url, tableName, false) }方法二:def save2Postgresql(jdbcDf: Da...原创 2018-08-17 12:12:29 · 1964 阅读 · 0 评论 -
Hive中关于日期函数使用
1.时间戳函数 日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数 获得当前时区的UNIX时间戳: select unix_timestamp(); 1533716607将指定的时间转为UNIX时间戳 :select unix_timestamp('2018-08-08 16:22:01'); 1533716521将指定的时间转为UNIX时间戳: sele...原创 2018-08-08 16:43:41 · 5393 阅读 · 0 评论 -
hive函数大全
hive的内置方法很多,特被容易忘,记录在次方便使用。 1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE 。 A <> B 所有原始类型 如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。 A != B 所有原始类型 如果A不等于B返回TRU...转载 2018-08-02 11:18:50 · 543 阅读 · 0 评论 -
hive 和spark sql 中日期相关使用技巧(一)
hive 和spark sql 中日期相关使用技巧 常用日期/时间相关字段、类型、及示例:类型包括:BIGINT,TIMESTAMP和STRING 下面是这几种类型之间相互转换的方法:BIGINT转TIMESTAMP:from_unixtime(time/1000) TIMESTAMP转BIGINT:unix_timestamp(time)*1000 BIGINT转STRING(y...原创 2018-07-30 13:11:17 · 3015 阅读 · 0 评论 -
sparksql减少输出数据中的小文件数量
由于项目中开发用到sparksql ,将一个大表的数据查询后插入到另一种表中,此时数据令也不是太大,但是产生了200多个小文件,占用namenode资源,为了改善该情况使用,将hive中的表加载为一个df,然后重新分区+缓存+注册为临时表,在进行查询,插入操作,此时文件为20个关键代码如下:...........val aDF =hiveContext.原创 2017-11-30 14:19:53 · 8968 阅读 · 0 评论 -
001:spark-submit提交参数之num-executors,num-executors,executor-cores
1.num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。参数调优原创 2018-01-04 10:16:17 · 15997 阅读 · 2 评论 -
spark sql 中的细节,判断字段是否为null
开始用的 是'字段'=null'字段'!=null执行后的的数据表中没有数据后改为'字段' is null'字段' is not null执行的结果正确自己真是记性差.........原创 2017-12-13 10:34:50 · 20535 阅读 · 2 评论 -
Hive四种数据导入方式
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:转载 2017-12-11 15:18:18 · 314 阅读 · 0 评论