- 博客(5)
- 收藏
- 关注
原创 简单记录Gitlab-CI
CI也就是持续集成,需要自动化实现从更新代码到打包,测试,部署等工作。Gitlab自带的CI工具,总体思路是为自动执行任务提供服务器,当更新代码等操作发生是自动触发任务,这里执行任务的服务器就是Runner,具体执行的 任务需要进行配置,也就是.gitlab-ci.yml文件。1.配置Runner # For Debian/Ubuntu/Mintcurl -L https://p...
2018-12-28 10:53:00 188
原创 记录一次Spark调优性能对比
在重写MR到Spark的过程中发现Spark的性能并没有达到我的预期,记录一次调优操作即效果对比本文涉及调优手段:持久化 分区数未调优之前的代码:val jsonStringRDD: RDD[String] = sc.textFile(s"$inputPath")val check1RDD = jsonStringRDD.filter(js => check1(...
2018-12-18 19:13:18 422
原创 恢复 Hive 删除表,数据库
背景:CDH集群hue窗口操作,删除database;hive中使用 drop table或者drop database 删除数据之后是可以进行恢复的,truncate掉的数据目前无法恢复。删除掉的数据可以在trash文件夹中找到,点击restore恢复至删除前的文件位置,如果删除的时间比较久回收站被清除也无法恢复。恢复步骤:恢复数据至原位置 找到删除的文件夹...
2018-12-15 16:25:34 7091 2
原创 spark写 本地文件报错
环境:spark1.6,window10,Hadoop2.6报错:rdd.saveastextFile(outPath)原因:.在spark bin目录下没有winutils.exe问价 本地dill问价有损坏 c/windows/system32中没有hadoop.dll文件解决:查看文件夹,没有文件去下载并放到文件夹下;如果有文件尝试修复本地环境,下载DirectX Repa...
2018-12-11 15:59:06 1172
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人