spark
&捕风的汉子&
这个作者很懒,什么都没留下…
展开
-
spark环境构建
spark是个分布式运算平台,在火热的大数据时代,很多企业很多场景都使用spark作为运算平台。一方面是其在计算的高效性,另一方面是其稳定性。官网有个很形象的说明,spark的运算效率是hadoop运算效率的100倍以上。广泛被运用在各种场景中,原因spark支持很多语言的接口:java、scala、python、R等,降低了开发人员的使用门槛。下面介绍spark的构建过程:1、环境准备,...原创 2018-08-08 22:22:28 · 167 阅读 · 0 评论 -
关于spark以parquet写入时的小问题
今天使用spark对一个dataframe中的数据以某一个为主键做groupby进行求和,数据类似如下:scala> userDF.show+---------+--------+| userid | count |+--------+---------+| 11111111| 102|| 2222222| 97|| 3333333| 10|| 1111111...原创 2018-10-17 18:02:29 · 2801 阅读 · 0 评论 -
spark以standalone运行时的日志清理
spark运行任务的日志一直没太大关注,原因是硬盘资源充足,除非任务出错时才去看一下,但没有清理这些日志的习惯。直到最近遇到的一个问题是,硬盘资源严重缺乏,不得不需要定时去清理日志。第一时间去看下spark本身的配置,是否支持定时清理日志的选项,毕竟spark那么成熟,相信很多人都面临过这样的问题。从spark-env.sh里面看到SPARK_WORKER_OPTS和SPARK_HISTORY...原创 2018-10-29 21:23:12 · 1217 阅读 · 0 评论 -
关于spark.sql.autoBroadcastJoinThreshold设置
今天使用spark对一组大数据进行合并作join操作,一直都报下面的错:Exception in thread “broadcast-exchange-0” java.lang.OutOfMemoryError: Not enough memory to build and broadcast the table to all worker nodes想来想去,之前也跑过这类的任务,并且都...原创 2018-11-05 17:30:09 · 26566 阅读 · 3 评论 -
在spark中通过UDF转字符串ip
今天在spark中需要将字符型(String)的ip转化为长整型(long)的ip,参考了两篇文章https://blog.csdn.net/cjuexuan/article/details/54912215和https://blog.csdn.net/key_xyes/article/details/79818196,通过这两篇文章的抽取出思路。于是封装成UDF函数,如下:sqlConte...原创 2019-03-13 16:06:42 · 442 阅读 · 0 评论