该文章来自阿里巴巴技术协会(ATA)精选集
背景
咱们在开发过程当中,大部分是java开发, 而在文本处理过程当中,主要就是脚本进行开发。 java开发的特色就是咱们能够很早地进行TDDL, METAQ 等等地对接; 而脚本开发的特色就是在进行批处理的时候很是方便。 前阵子我遇到这么一个需求场景: 对抓取的数据进行打包, 后来又遇到我要经过脚本进行抓取,好比nodejs下基于phantomjs的casperjs爬虫。java
解决方法
对于第一个问题:java抓取,而且把结果打包。
那么比较直接的作法就是,java接收各类消息(db,metaq等等),而后借助于jstorm集群进行调度和抓取。 最后把抓取的结果保存到一个文件中,而且经过调用shell打包, 回传。 也许有同窗会问, 为何不直接把java调用odps直接保存文件,答案是,咱们的集群不是hz集群,直接上传odps速度颇有问题,所以先打包比较合适。(这里不纠结设计了,咱们回到正题)node
java调用shell的方法
经过ProcessBuilder进行调度
这种方法比较直观,并且参数的设置也比较方便, 好比我在实践中的代码(我隐藏了部分业务代码):shell
ProcessBuilder pb = new ProcessBuilder("./" + RUNNING_SHELL_FILE, param1,
param2, param3);
pb.directory(new File(SHELL_FILE_DIR));
int runningStatus = 0;
String s = null;
try {
Process p = pb.start();
try {
runningStatus = p.waitFor();
} catch (InterruptedException e) {
}
} catch (IOException e) {
}
if (runningStatus != 0) {
}
return;
这里有必要解释一下几个参数:
RUNNING_SHELL_FILE:要运行的脚本
SHELL_FILE_DIR:要运行的脚本所在的目录; 固然你也能够把要运行的脚本写成全路径。
runningStatus:运行状态,0标识正常。 详细能够看java文档。
param1, param2, param3:能够在RUNNING_SHELL_FILE脚本中直接经过1,2,$3分别拿到的参数。bash
直接经过系统Runtime执行shell
这个方法比较暴力,也比较经常使用, 代码以下:markdown
p = Runtime.getRuntime().exec(SHELL_FILE_DIR + RUNNING_SHELL_FILE + " "+param1+" "+param2+" "+param3);
p.waitFor();
咱们发现,经过Runtime的方式并无builder那么方便,特别是参数方面,必须本身加空格分开,由于exec会把整个字符串做为shell运行。学习
可能存在的问题以及解决方法
若是你以为经过上面就能知足你的需求,那么多是要碰壁了。你会遇到如下状况。ui
没权限运行
这个状况咱们团队的朱东方就遇到了, 在作DTS迁移的过程当中,要执行包里面的shell脚本, 解压出来了以后,发现执行不了。 那么就按照上面的方法受权吧spa
ProcessBuilder builder = new ProcessBuilder("/bin/chmod", "755", tempFile.getPath());
Process process = builder.start();
int rc = process.waitFor();
java进行一直等待shell返回
这个问题估计更加常常遇到。 缘由是, shell脚本中有echo或者print输出, 致使缓冲区被用完了! 为了不这种状况, 必定要把缓冲区读一下, 好处就是,能够对shell的具体运行状态进行log出来。 好比上面个人例子中我会变成:线程
ProcessBuilder pb = new ProcessBuilder("./" + RUNNING_SHELL_FILE, keyword.trim(),
taskId.toString(), fileName);
pb.directory(new File(CASPERJS_FILE_DIR));
int runningStatus = 0;
String s = null;
try {
Process p = pb.start();
BufferedReader stdInput = new BufferedReader(new InputStreamReader(p.getInputStream()));
BufferedReader stdError = new BufferedReader(new InputStreamReader(p.getErrorStream()));
while ((s = stdInput.readLine()) != null) {
LOG.error(s);
}
while ((s = stdError.readLine()) != null) {
LOG.error(s);
}
try {
runningStatus = p.waitFor();
} catch (InterruptedException e) {
}
记得在start()以后, waitFor()以前把缓冲区读出来打log, 就能够看到你的shell为何会没有按照预期运行。 这个还有一个好处是,能够读shell里面输出的结果, 方便java代码进一步操做。设计
也许你还会遇到这个问题,明明手工能够运行的命令,java调用的shell中某一些命令竟然不能执行,报错:命令不存在!
好比我在使用casperjs的时候,手工去执行shell明明是能够执行的,可是java调用的时候,发现老是出错。 经过读取缓冲区就能发现错误日志了。 我发现即使本身把安装的casperjs的bin已经加入了path中(/etc/profile, 各类bashrc中)还不够。 好比:
export NODE_HOME="/home/admin/node"
export CASPERJS_HOME="/home/admin/casperjs"
export PHANTOMJS_HOME="/home/admin/phantomjs"
export PATH=$PATH:$JAVA_HOME/bin:/root/bin:$NODE_HOME/bin:$CASPERJS_HOME/bin:$PHANTOMJS_HOME/bin
原来是由于java在调用shell的时候,默认用的是系统的/bin/下的指令。特别是你用root权限运行的时候。 这时候,你要在/bin下加软链了。针对我上面的例子,就要在/bin下加软链:
ln -s /home/admin/casperjs/bin/casperjs casperjs;
ln -s /home/admin/node/bin/node node;
ln -s /home/admin/phantomjs/bin/phantomjs phantomjs;
这样,问题就能够解决了。
若是是经过java调用shell进行打包,那么要注意路径的问题了
由于shell里面tar的压缩和解压可不能直接写:
tar -zcf /home/admin/data/result.tar.gz /home/admin/data/result
直接给你报错,由于tar的压缩源必须到路径下面, 所以能够写成
tar -zcf /home/admin/data/result.tar.gz -C /home/admin/data/ result
若是个人shell是在jar包中怎么办?
答案是:解压出来。再按照上面指示进行操做。
(1)找到路径
String jarPath= findClassJarPath(ClassLoaderUtil.class);
JarFiletopLevelJarFile = null;
try {
topLevelJarFile = new JarFile(jarPath); Enumerationentries = topLevelJarFile.entries();
while (entries.hasMoreElements()) {
JarEntryentry = entries.nextElement();
if (!entry.isDirectory() && entry.getName().endsWith(".sh")) {
对你的shell文件进行处理 }
}
对文件处理的方法就简单了,直接touch一个临时文件,而后把数据流写入,代码:
FileUtils.touch(tempjline);
tempjline.deleteOnExit();
FileOutputStream fos = new FileOutputStream(tempjline);
IOUtils.copy(ClassLoaderUtil.class.getResourceAsStream(r), fos);
fos.close();
有这个这个东东,相信你们会减小踩坑,并且大胆地使用java和脚本之间的交互吧。 java能够调用shell,那么shell再调用其余就方便了。 记得一点, 不要过分地依赖缓冲区进行线程之间的通讯。缘由本身去学习吧。
但愿这个能帮到你们。