![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
从一点一滴做起
这个作者很懒,什么都没留下…
展开
-
sparksql和postgresql常用的一些函数
sparksql1.from_unixtime将时间戳换算成当前时间,to_unix_timestamp将时间转化为时间戳SELECT from_unixtime(0, 'yyyy-MM-dd HH:mm:ss'); 1970-01-01 00:00:00SELECT to_unix_timestamp('2016-04-08','yyyy-MM-dd'); 1460041200...原创 2019-03-15 16:07:46 · 1046 阅读 · 0 评论 -
Spark学习总结
1.Spark是什么?Spark是一个基于内存的快速的用于大规模数据处理的统一分析引擎。2.Spark有什么特性? 容错、并行3.Spark的核心组件有哪些? Spark core、Spark SQL、Spark Streaming、Spark MLlib、Spark Graphx4.Spark的核心数据模型? RDD(Resilient Di...原创 2018-07-14 22:50:22 · 3105 阅读 · 1 评论 -
Spark提交命令和参数调优
参数意义和参考值:1.num-executors 线程数:一般设置在50-100之间,必须设置,不然默认启动的executor非常少,不能充分利用集群资源,运行速度慢2.executor-memory 线程内存:参考值4g-8g,num-executor乘以executor-memory不能超过队列最大内存,申请的资源最好不要超过最大内存的1/3-1/23.executor-cores...原创 2019-05-08 10:52:13 · 6239 阅读 · 0 评论 -
SQL基本命令
postgresqlTRUNCATE TABLE table_name // 删除表中数据regexp_split_to_table(substr(列名1,1,LENGTH (列名1) - 1),'\|') as 列名2 // 按照某个字段进行拆分coalesce(字段名,替换值) // 将null替换为自定义值select *from table_na...原创 2019-05-08 11:19:34 · 1309 阅读 · 0 评论 -
Spark学习总结
一、spark自定义类在Driver端和Executor的传输问题在一个map算子中 new class。每来一条数据将新建一个对象,每一个对象都要进行序列化,将大量消耗内存和网络带宽 在Driver端new class发送到Executor。对象将会被发送到每个task上,如果每个Executor有多个task,将占用过多内存和网络带宽(补充:可以在map端实例化对象,只实例化一次。就会减...原创 2019-05-20 15:51:07 · 1076 阅读 · 0 评论 -
Spark:wordcount
object text { def main(args: Array[String]): Unit = { // 创建sparksession val sparkSession = SparkSession.builder().master("local").appName("Word_Count").getOrCreate() import sparkSessio...原创 2019-06-12 09:27:02 · 241 阅读 · 0 评论