在实际开发与维护中,可能会遇到需要从好几个G大的文本文件中获取包含指定文本的内容,
例如,需要从某天的系统日志文件里获取指定时间范围的日志,而这个日志文件有几个个G,在Windows中用文本编辑器打开会出现内存不足的情况,导致无法打开通过Ctrl+C、Ctrl+V的方式得到指定范围的内容。
这时候可以考虑在Linux环境中进行以下操作:
假设大文件文件名为:big.log,需要获取从2021-01-15 17:00到2021-01-15 17 18:00的日志存到新文件small.log
1、定位起始行号
将包含指定内容所有行存到begin.txt
cat -n big.log|grep "2021-01-15 17:00:00" >>begin.txt
打开文件获取行号--3730601
cat begin.txt
2、定位最后行号
将包含指定内容所有行存到end.txt
cat -n big.log |grep "2021-01-15 18:00:00" >>end.txt
打开文件获取行号--4335931
cat end.txt
3、根据起始行号和结束行号将该范围的内容保存到新文件中
sed -n '3730601,4335931p' big.log >>small.log