如果遇到数据清洗等问题,小规模数据,几GB以内的推荐,脚本速度快~~书写方便。
如果数据规模已经几百上千GB了。。。推荐直接高级语言吧。
lz最近讲几TB的数据从mysql拉出来(mydumper,但是一定要注意与dba协商好,mydumper的各种小坑较多),然后导入到我们自己的nosql里边,费了老大劲了。
提示:日志级别的sed awk是没有问题的。。。多了亲~~直接java javac吧(没什么好证明的,随便弄个几十GB单文件,然后自己试试就知道了,速度太慢 太慢了)。
下边是java读取大文件如何办。
http://note.youdao.com/share/?id=3b0c3233a240adbc73e8ede1583c0a9c&type=note
以及java执行远程shell如何控制。