最近Winter刚教会了我一个文件比较命令: comm,是一个比diff更简单的取2个文件交集/补集的方法。原先以为需要用join 2个表的方法,现在很少几个参数就实现了。
随着时间的积累,我发现原先很多需要用数据库才能实现的排序,过滤,分列输出其实都可以shell代替了:而且效率更高。目前正在整理积累起来的oneliner工具集,经常使用的有:
awk: 可用用作select 控制指定列的输出,并且附带了length() mod 等简单函数,通过if条件还可以实现更复杂的判断逻辑,而且比perl更容易读
sed: 控制到某一行的输出 相当于limit 30,40
perl:正则表达式 过滤,替换,非常强大,网上可以找到很多的one liner的现成工具,不过阅读起来有些困难;
sort: 相当于 order by
uniq: 相当于distinct
grep: 相当于like, not like
wc: 相当于count()
再加上翻页输出more head等。结合报表输出工具:GNUPlot,R-Project等,就可以生成漂亮的报表了。谈不上数据挖掘,但是用于一些简单actionable data采集确实是非常快速有效。
传统的数据库思维对于开发人员来说是一种“瓶颈”:有很多应用是完全可以用比数据库更简单的结构(方法)实现的,这也是为什么除了Oracle这样功能丰富的数据库系统外,MySQL SQLLite gDBM等轻量级数据结构存在和发展的原因。其次:数据库工具很多都是面向精确输出的,但是对于海量数据的处理来说,很多特定应用的精确性其实可以要求不那么高,比如:搜索引擎,最重要的是用很快的速度将最好的TOP 10结果提供给用户。
而相对于Excel表格,命令行工具优势在于长期的后台(非交互式的)自动数据统计,一件事情如果能自动运行,好处真是太多了。
作者: 车东 发表于:2005-06-08 19:06 最后更新于:2007-04-15 19:04版权声明:可以转载,转载时请务必以超链接形式标明文章 GNU工具箱:充分用命令行代替SQL 的原始出处和作者信息及 本版权声明。
http://www.chedong.com/blog/archives/000830.html