linux c sort 函数,关于算法:Linux上的“快速选择”(或类似方法)实现? (而不是sort | uniq -c | sort -rn | head-$ N)...

本文探讨了在大量服务器日志中快速识别最频繁出现的URL、HTTP方法和retcode的问题,作者尝试了awk、sort、uniq等工具组合,提出了堆选择算法作为解决方案,同时介绍了logtop工具的可能性。作者寻求内存效率高且可扩展的替代方法,如使用快速选择算法优化内存消耗和性能。
摘要由CSDN通过智能技术生成

问题:我经常需要查看特定日志的最后一天中最频繁重复的"模式"。就像这里的一小部分tomcat日志一样:

GET /app1/public/pkg_e/v3/555413242345562/account/stats 401 954 5

GET /app1/public/pkg_e/v3/555412562561928/account/stats 200 954 97

GET /app1/secure/pkg_e/v3/555416251626403/ex/items/ 200 517 18

GET /app1/secure/pkg_e/v3/555412564516032/ex/cycle/items 200 32839 50

DELETE /app1/internal/pkg_e/v3/accounts/555411543532089/devices/bbbbbbbb-cccc-2000-dddd-43a8eabcdaa0 404 - 1

GET /app1/secure/pkg_e/v3/555412465246556/sessions 200 947 40

GET /app1/public/pkg_e/v3/555416264256223/account/stats 401 954 4

GET /app2/provisioning/v3/555412562561928/devices 200 1643 65

...

如果我想找出最常用的URL(以及方法和retcode)-我将这样做:

[root@srv112:~]$ N=6;cat test|awk '{print $1""$2" ("$3")"}'\

|sed 's/[0-9a-f-]\+ (/%GUID% (/;s/\/[0-9]\{4,\}\//\/%USERNAME%\//'\

|sort|uniq -c|sort -rn|head -$N

4 GET /app1/public/pkg_e/v3/%USERNAME%/account/stats (401)

2 GET /app1/secure/pkg_e/v3/%USERNAME%/devices (200)

2 GET /app1/public/pkg_e/v3/%USERNAME%/account/stats (200)

2 DELETE /app1/internal/pkg_e/v3/accounts/%USERNAME%/devices/%GUID% (404)

1 POST /app2/servlet/handler (200)

1 POST /app1/servlet/handler (200)

如果我想从同一文件中找出最常使用的用户名-我将这样做:

[root@srv112:~]$ N=4;cat test|grep -Po '(?<=\/)[0-9]{4,}(?=\/)'\

|sort|uniq -c|sort -rn|head -$N

9 555412562561928

2 555411543532089

1 555417257243373

1 555416264256223

上面的方法在较小的数据集上效果很好,但是对于较大的输入集-sort|uniq -c|sort -rn|head -$N的性能(复杂性)令人难以忍受(谈论约100台服务器,每台服务器约250个日志文件,每个日志文件约100万行)

解决问题的尝试:|sort|uniq -c零件可以很容易地用awk 1-liner替换,将其变成:

|awk '{S[$0]+=1}END{for(i in S)print S[i]"\t"i}'|sort -rn|head -$N

但是我找不到"快速选择算法"的标准/简单且内存有效的实现方式(在此讨论)来优化|sort -rn|head -$N部分。

正在寻找GNU二进制文件,rpm,awk 1-liners或一些易于编译的Ansi C代码,这些代码我可以在数据中心之间进行传播:

3   tasty oranges

225 magic balls

17  happy dolls

15  misty clouds

93  juicy melons

55  rusty ideas

...

变成(给定N = 3):

225 magic balls

93  juicy melons

55  rusty ideas

我可能可以获取示例Java代码并将其移植为以上stdin格式(顺便说一句-核心Java中缺少.quickselect(...)感到惊讶)-但在各处部署Java运行时的需求并不吸引。

我也许也可以获取它的样本(基于数组的)C代码片段,然后将其调整为上述stdin格式,然后测试并修复泄漏等等。甚至在awk中从头开始实施它。

但是(!)-这种简单的需求很可能经常超过1%的人面临-应该在那里进行标准(预先测试)的实现吗?

希望...也许我使用了错误的关键字来查找...

其他障碍:在处理大型数据集时,还面临一些问题:

日志文件位于约100台服务器的NFS挂载卷上-因此它

将工作并行化并分成更小的块是有意义的

上面的awk '{S[$0]+=1}...需要内存-我看到它死了

只要它吃了16GB(尽管有48GB的可用RAM和

大量交换...也许我忽略了一些Linux限制)

我当前的解决方案仍然不可靠,并且不是最佳的(进行中),如下所示:

find /logs/mount/srv*/tomcat/2013-09-24/ -type f -name"*_22:*"|\

# TODO: reorder 'find' output to round-robin through srv1 srv2 ...

#       to help 'parallel' work with multiple servers at once

parallel -P20 $"zgrep -Po '[my pattern-grep regexp]' {}\

|awk '{S[\$0]+=1}

END{for(i in S)if(S[i]>4)print "count: "S[i]"\

"i}'"

# I throw away patterns met less than 5 times per log file

# in hope those won't pop on top of result list anyway - bogus

# but helps to address 16GB-mem problem for 'awk' below

awk '{if("count:"==$1){C=$2}else{S[$0]+=C}}

END{for(i in S)if(S[i]>99)print S[i]"\t"i}'|\

# I also skip all patterns which are met less than 100 times

# the hope that these won't be on top of the list is quite reliable

sort -rn|head -$N

# above line is the inefficient one I strive to address

你知道awstats吗? =)

请注意,使用堆选择算法可能会更快,内存使用效率更高。最简单形式的快速选择要求整个数据集都在内存中。堆选择仅需要在内存中存储N个项目,因此它可以处理任意大的数据集。

logtop可能会做您想要的事情。

@@ sputnick,哇-一种功能强大的工具,甚至适用于自定义日志格式(LogFile =" sed -e s /.../.../"),对于我的需求来说似乎太大了-例如不知道它如何适应我的并行过程日志的需求,或者每次我需要一个简单的"列表顶部"时配置它的难易程度,但是一定会尝试一下。感谢你的分享!

@@ Jim Mischel,谢谢!将寻求"堆选择"实现-感觉像是正确的方向!至于logtop-它说我使用哈希表存储字符串,并使用AVL树存储频率,这意味着它很可能会遇到与awk相同的OutOfMemory问题。

我不确定是否可以编写自己的小工具,但是您可以轻松编写一个小工具以将|sort|uniq -c|sort -rn|head -$N-部分替换为|sort|quickselect $N。 该工具的优势在于,它仅逐行读取第一个sort的输出,而不会在内存中保留大量数据。 实际上,它仅需要内存来保存当前行和随后打印的$N行。

这是源quickselect.cpp:

#include

#include

#include

#include

#include

typedef std::multimap< std::size_t, std::string, std::greater< std::size_t > > winner_t;

winner_t winner;

std::size_t max;

void insert( int count, const std::string& line )

{

winner.insert( winner_t::value_type( count, line ) );

if( winner.size() > max )

winner.erase( --winner.end() );

}

int main( int argc, char** argv )

{

assert( argc == 2 );

max = std::atol( argv[1] );

assert( max > 0 );

std::string current, last;

std::size_t count = 0;

while( std::getline( std::cin, current ) ) {

if( current != last ) {

insert( count, last );

count = 1;

last = current;

}

else ++count;

}

if( count ) insert( count, current );

for( winner_t::iterator it = winner.begin(); it != winner.end(); ++it )

std::cout << it->first <second << std::endl;

}

编译为:

g++ -O3 quickselect.cpp -o quickselect

是的,我的确知道您正在要求即用的解决方案,但我不知道有什么方法会同样有效。 上面的代码非常简单,几乎没有错误余地(假设您不会弄乱单个数字命令行参数:)

感谢您的努力! 我尝试了一下-它可以工作,但是您可能已经猜到|sort部分需要花费大量时间。 Ive用|awk {S[$0]+=1}END{for(l in S)for(i=0;i替换了|sort-它设法在5小时内完成(大部分时间花费在stdin开销上)。 可能会改变您的代码以接受{count} {the line content}格式(uniq -c通常产生的格式),并将进行后续处理。 再次谢谢你!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值