grep 大文件会内存溢出吗_程序员面试冷知识：为什么grep查找效率这么快

最新推荐文章于 2024-07-17 11:05:52 发布

weidunzai

最新推荐文章于 2024-07-17 11:05:52 发布

阅读量1.6k

点赞数

文章标签： grep 大文件会内存溢出吗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32048835/article/details/112097599

版权

更多互联网新鲜资讯、工作奇淫技巧关注原创【飞鱼在浪屿】(日更新)

GNU的grep程序作者认为是有两个因素：fast search和fast input。

https://lists.freebsd.org/pipermail/freebsd-current/2010-August/019310.html

快速查找/fast search

grep是基于Boyer-Moore算法，该算法首先查找目标字符串的最后一个字母，并使用查找map表，当找到不匹配的字符，该map表告诉算法可以跳过多长的位置。

BM算法的wiki链接：

https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore%E2%80%93Horspool_algorithm

BM还在于能够判断出一些不必要的内循环，加快运行速度。

在随机文本查找上，BM的平均时间复杂度是o(n)，最差情况是o(m*n)。其中m是搜索字符串长度，n是查找范围长度，

快速输入/fast input

GNU grep使用原生的输入系统调用，而不用read，避免内存拷贝。
grep内部没有行，而是用一块大缓冲区包括放置换行符，因为新行会变慢效率。
在查找中使用连续内存空间。
在输出写出有没有使用原生系统调用不是很重要，因为输出缓存空间相比输入往往小很多

进阶版的ripgrep(俗称rg)

那么grep做到了极致吗，显然不是。ripgrep(俗称rg)是grep的演进版。在一些场景比grep更快更好用。github链接在这：

https://github.com/BurntSushi/ripgrep

比如在读输入数据上的一个优化。有没有使用mmap来存放输入字符串，这里有一个探讨。

如果是在一堆连续内存空间的小文件查找，mmap没有优势。mmap 会导致连加载到内存的小文件连续缺页中断。
而如果是大文件查找，mmap是有优势的

$ rg --mmap zqzqzqzq big-file  #比较快 $ rg --no-mmap zqzqzqzq big-file #比较慢

glibc 的实现使用一种双向字符串匹配算法/Two-way_string-matching_algorithm。它是前进的Knuth-Morris-Pratt算法和后向运行的Boyer-Moore字符串搜索算法的组合。

https://en.wikipedia.org/wiki/Two-way_string-matching_algorithm

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
grep 大文件会内存溢出吗_程序员面试冷知识：为什么grep查找效率这么快

更多互联网新鲜资讯、工作奇淫技巧关注原创【飞鱼在浪屿】(日更新)GNU的grep程序作者认为是有两个因素：fast search和fast input。https://lists.freebsd.org/pipermail/freebsd-current/2010-August/019310.html快速查找/fast searchgrep是基于Boyer-Moore算法，该算法首先查找目标字符串...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。