- 博客(4)
- 收藏
- 关注
原创 oh-my-zsh 安装(不需要git和root)
公司服务器上没法用git,很多教程都是基于git的方式安装的zsh和oh-my-zsh,看了下各个教程发现git好像不是必须的,尝试了一下好像真的成功了
2020-07-28 14:52:02 554
原创 spark merge文件
刚开始使用spark第一个功能就是合并两个文件,相比于python的pandas合并两个文件,spark在速度上快了不少,而且几乎不在乎文件大小,最大尝试过150G文件大小的merge,而对于pandas而言超过10G的文件已经就无法处理了,使用spark处理文件已经成了刚需。使用spark合并两个文件比较简单,只不过使用过程中发现了不少的坑,主要分为以下几个步骤读取文件var df = spark.read.option("delimiter",delimiter).option("heade
2020-07-13 16:09:28 1541
原创 spark环境创建
spark版本2.3.0创建获取session环境要想操作spark集群,必须获取相应的session环境,具体的spark基本概念见spark技术原理透视在spark中获取 session环境的方法比较简单,代码相对固定private val conf = new SparkConf().setMaster("local")//.set("spark.num.executors","3").set("spark.executor.cores","1")private val sessi
2020-07-13 15:41:08 184
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人