spark
文章平均质量分 92
꧁꫞ND꫞꧂
每一天都值得期待与认证对待
展开
-
常用SQL总结
1.时间函数当前日期select current_date();2022-06-26当前日期-加select date_add(current_date(),1);2022-06-27当前日期-减select date_sub(current_date(),1);2022-06-25指定日期-加select date_add('2022-06-06',1);2022-06-07当前日期-自定义格式select date_format(current_date(),'yyyyMMdd');20220626当前原创 2022-07-01 16:45:59 · 778 阅读 · 0 评论 -
SparkSQL的Unresolved Logical Plan
我们知道SparkSQL最终会把API和SQL语句转换成Spark Core的RDD代码来执行。理解Spark Catalyst工作流程是非常有必要的.本文主要分享SparkSQL执行流程中的生成Unresolved Logical Plan背后的原理,希望能帮助大家更好地了解Spark Catalyst的整体执行流程.1、通过ANTLR对SQL进行语法词法解析,生成抽象语法树2、将抽象的语法树解析成未解析的逻辑执行计划,也叫未绑定的逻辑执行计划3、对有效节点进行数据类型绑定,根据Catalog对字段进行解转载 2022-06-22 15:15:14 · 685 阅读 · 0 评论 -
Spark读取Hive数据写入Hbase
使用spark方式写入在使用Spark时经常需要把数据落入HBase中,如果使用普通的Java API,写入会速度很慢。还好Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢?BulkLoad不会写WAL,也不会产生flush以及split。 如果我们大量调用PUT接口插入数据,可能会导致大量的GC操作。除了影响性能之外,严重时甚至可能会对HBase节点的...原创 2020-04-17 10:58:15 · 1995 阅读 · 0 评论 -
读取Hive中的数据写入Hbase
方式一:MR方式1.首先将hive中的数据使用一定的分隔符生成对应的text文件,然后放到hdfspublic class LngLatOrder { public static void main(String[] args) { String table = args[0]; String date = PersonUtils.getDate(); String pat...原创 2020-04-15 18:07:05 · 1201 阅读 · 0 评论 -
自定义UDF、UDAF、UDTF函数
注意事项:1.udf、udaf函数的使用都需要使用sqlContext来创建function,如果是scala里需要引用Java的方法或者函数的话,需要包装一下,再写个scala的方法,将Java的返回值输出。2.scala中的udf函数注册park.sqlContext.udf.register("date_splits",date_splits _)3.UDTF函数使用的时候,需要...原创 2020-04-01 18:24:35 · 1507 阅读 · 0 评论 -
Spark SQL 函数
Spark API 全集(2):Spark SQL 函数全集Posted on2018-03-23Edited on2019-02-05Views:2183Summaryorg.apache.spark.sql.functions是一个Object,提供了约两百多个函数。大部分函数与Hive的差不多。除UDF函数,均可在spark-sql中直接使用。经过...转载 2020-01-17 10:52:51 · 1005 阅读 · 0 评论 -
Json里面套json使用Java拼接SQL
需求:传入的好多个条件,不同条件之间的关系也是不同的。 案例JSON String json= "{\"code\":\"0\",\"msg\": \"\",\"searchtype\":\"1\",\"label_id\":\"\",\"county\":\"1|2|3|4\",\"lng_lat\": [{\"lng\":\"122.1231\"},{\"lat\":\"112.32...原创 2019-09-30 18:30:19 · 1083 阅读 · 0 评论 -
18年的开发总结
个人总结如果在运行spark的时候,有时候环境的问题需要引入其他的jar包,那么我们可以使用--driver-class-path $HBASE_HOME/lib/*:classpath也可以以在脚本前面执行export ****生成当前需要的环境当前我们集群使用的版本 jdk1.8 spark2.11 hive2.1.1 hbase1.3.0 hadoop2.7.3 zookeeper3....原创 2019-03-07 16:56:29 · 168 阅读 · 0 评论 -
Spark job :Connection reset by peer
I have a spark job on hadoop ,some jobs can cucced but one is faild ,show Connection reset by peer and last show Container killed by YARN for exceeding memory limits. 16.9 GB of 16 GB physical memor...原创 2019-01-25 14:40:25 · 1727 阅读 · 0 评论 -
memoryOverhead issue in Spark
memoryOverhead issue in SparkWhen using Spark and Hadoop for Big Data applications you may find yourself asking: How to deal with this error, that usually ends-up killing your job: Container killed ...转载 2019-01-25 13:49:33 · 300 阅读 · 0 评论 -
Spark调优秘诀
spark调优秘诀1.诊断内存的消耗以上就是Spark应用程序针对开发语言的特性所占用的内存大小,要通过什么办法来查看和确定消耗内存大小呢?可以自行设置Rdd的并行度,有两种方式:第一,在parallelize(),textFile()等外部数据源方法中传入第二个参数,设置rdd的task/partition的数量;第二个用sparkconf.set()设置参数(spark.deful...转载 2018-09-24 09:13:01 · 337 阅读 · 0 评论