GNU工具箱:充分用命令行代替SQL

最近Winter刚教会了我一个文件比较命令: comm,是一个比diff更简单的取2个文件交集/补集的方法。原先以为需要用join 2个表的方法,现在很少几个参数就实现了。

随着时间的积累,我发现原先很多需要用数据库才能实现的排序,过滤,分列输出其实都可以shell代替了:而且效率更高。目前正在整理积累起来的oneliner工具集,经常使用的有:
awk: 可用用作select 控制指定列的输出,并且附带了length() mod 等简单函数,通过if条件还可以实现更复杂的判断逻辑,而且比perl更容易读
sed: 控制到某一行的输出 相当于limit 30,40
perl:正则表达式 过滤,替换,非常强大,网上可以找到很多的one liner的现成工具,不过阅读起来有些困难;
sort: 相当于 order by
uniq: 相当于distinct
grep: 相当于like, not like
wc: 相当于count()

再加上翻页输出more head等。结合报表输出工具:GNUPlotR-Project等,就可以生成漂亮的报表了。谈不上数据挖掘,但是用于一些简单actionable data采集确实是非常快速有效。

传统的数据库思维对于开发人员来说是一种“瓶颈”:有很多应用是完全可以用比数据库更简单的结构(方法)实现的,这也是为什么除了Oracle这样功能丰富的数据库系统外,MySQL SQLLite gDBM等轻量级数据结构存在和发展的原因。其次:数据库工具很多都是面向精确输出的,但是对于海量数据的处理来说,很多特定应用的精确性其实可以要求不那么高,比如:搜索引擎,最重要的是用很快的速度将最好的TOP 10结果提供给用户。

而相对于Excel表格,命令行工具优势在于长期的后台(非交互式的)自动数据统计,一件事情如果能自动运行,好处真是太多了。

作者: 车东 发表于:2005-06-08 19:06 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及 本版权声明

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值