GNU工具箱：充分用命令行代替SQL

最新推荐文章于 2024-09-10 15:57:14 发布

车东-csdn

最新推荐文章于 2024-09-10 15:57:14 发布

阅读量117

点赞数

文章标签：数据库数据结构与算法

本文链接：https://blog.csdn.net/chedong/article/details/81631477

版权

最近Winter刚教会了我一个文件比较命令: comm，是一个比diff更简单的取2个文件交集/补集的方法。原先以为需要用join 2个表的方法，现在很少几个参数就实现了。

随着时间的积累，我发现原先很多需要用数据库才能实现的排序，过滤，分列输出其实都可以shell代替了：而且效率更高。目前正在整理积累起来的oneliner工具集，经常使用的有：
awk: 可用用作select 控制指定列的输出，并且附带了length() mod 等简单函数，通过if条件还可以实现更复杂的判断逻辑，而且比perl更容易读
sed: 控制到某一行的输出相当于limit 30,40
perl：正则表达式过滤，替换，非常强大，网上可以找到很多的one liner的现成工具，不过阅读起来有些困难；
sort: 相当于 order by
uniq: 相当于distinct
grep: 相当于like, not like
wc: 相当于count()

再加上翻页输出more head等。结合报表输出工具：GNUPlot，R-Project等，就可以生成漂亮的报表了。谈不上数据挖掘，但是用于一些简单actionable data采集确实是非常快速有效。

传统的数据库思维对于开发人员来说是一种“瓶颈”：有很多应用是完全可以用比数据库更简单的结构（方法）实现的，这也是为什么除了Oracle这样功能丰富的数据库系统外，MySQL SQLLite gDBM等轻量级数据结构存在和发展的原因。其次：数据库工具很多都是面向精确输出的，但是对于海量数据的处理来说，很多特定应用的精确性其实可以要求不那么高，比如：搜索引擎，最重要的是用很快的速度将最好的TOP 10结果提供给用户。

而相对于Excel表格，命令行工具优势在于长期的后台（非交互式的）自动数据统计，一件事情如果能自动运行，好处真是太多了。

作者：车东发表于：2005-06-08 19:06 最后更新于：2007-04-15 19:04
版权声明：可以转载，转载时请务必以超链接形式标明文章 GNU工具箱：充分用命令行代替SQL 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/000830.html

« 不实的RSS时间好比是假的牛奶生产日期 | (回到Blog入口)|(回到首页) | TWiki的安装,配置和用户管理 » [再编辑]

车东-csdn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GNU工具箱：充分用命令行代替SQL

最近Winter刚教会了我一个文件比较命令: comm，是一个比diff更简单的取2个文件交集/补集的方法。原先以为需要用join 2个表的方法，现在很少几个参数就实现了。随着时间的积累，我发现原先很多需要用...
复制链接

扫一扫