- 博客(1)
- 资源 (5)
- 收藏
- 关注
原创 通过文件大小和MD5校验识别重复文件
#!/bin/sh if [ $# != "1" ] || [ $1 = "--help" ];then echo "Sytax:md5-sum.sh directory"; exit; fi echo "Begin" #file-list list=$(find $1); #rm $(rm -fr file_tmp.txt) $(rm -fr file_result.
2016-01-05 18:14:48 3335
crontab shell调用spark-sql,实现周期性动态SQL批量自动执行.rar
对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。
但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办?
spark-sql CLI几个参数,完全满足我等非专业人员。
2015-12-18
linux-结构化成行成列-小文件循环合并成大文件--方便上传hadoop
linux-结构化成行成列-小文件循环合并成大文件--方便上传hadoop:
文件到达门限后上传,或者文件时间戳超过门限时间,上传HDFS,防止小文件过多上传。
2015-12-14
标题 状态 阅读 评论 评论权限 操作 CDH5.5上安装Rhadoop,RStudio server版初始化SparkR
RStudio 安装完成后,如何初始化sparkR?CDH5不能用sparkR?
CDH5只要hdfs和hive,spark直接公网下载最新版本,然后直接spark on yarn.
sparkR初始化即可调测。
2015-12-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人