- 博客(8)
- 资源 (15)
- 收藏
- 关注
转载 perl准确识别IP地址的语句
((25[0-5])|(2[0-4]\d)|(1\d\d)|([1-9]\d)|\d)(\.((25[0-5])|(2[0-4]\d)|(1\d\d)|([1-9]\d)|\d)){3}
2012-03-21 20:04:04 735
转载 海量数据的处理方法
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取 ,然后根据所取得的值将url分别存储到1000个小文件(记为 )中。这样每个小文件的大约
2012-03-21 10:51:59 559
转载 perl中的元字符
$alerttext1 =~ s/\*/ANYCHARACTERS/g; my $regex = qr/\Q$alertext1\E/i; #将所有的元字符都预先转义# \Q 在non-word 字符前加上\,直到\E# \E 结束\L,\E 和\Q$regext =~ s/ANYCHARACTERS/.*/g;if($text1 =~ $regex ...
2012-03-20 19:38:23 1730
转载 从海量日志中提取访问百度次数最多的IP
P地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到
2012-03-20 10:27:58 737
转载 linux权限总结
一、用户对文件或目录都有哪些权限?四种:读、写、执行、没有权限二、如何表示这四种权限?如果用十进制数字表示,分别为:4、2、1、0;如果用字符表示,分别为:r、w、x、-。个人觉得,使用chmod命令更改文件或目录权限时,数字表示法显然比字符表示法简洁明快三、对于文件和目录而言,这四种权限是否具有同样的含义?并非如此,如下所示:-----------------------
2012-03-19 09:25:53 425
原创 perl中的函数参数
perl中的函数参数传入后是存在存在数组@_中的而不是存在$_中,就算有一个元素也是如此。。。。注意比较以下两个程序的区别,便可理解参数的含义:1.#!/usr/bin/perluse 5.010;sub greet{state $last;my $name=shift;if(defined $last){print "$last is here!!!\n";}e
2012-03-07 22:04:58 842
转载 perl转载undef简介 defined函数简介
(一)undef简介 变量在第一次赋值前有一个特殊值undef,按照Perl来说就是: “这里什么也没有,请继续” 。如果这里的“什么也没有”是一些“数字” ,则表现为 0。如果是“字符串” ,则表现为空串。但undef 既非数字也非字符串,它是另一种标量类型。由于undef 在需要数字的地方可以自动转化为 0,因此可以如下的写代码:#!/usr/bin/perlwhile($n
2012-03-05 11:11:30 1501
原创 perl语言入门感悟之一
注:本文为原创,不妥之处请见谅。主要是写给自己的就是写代码留下来的点点滴滴,些许感悟与大家共勉1,注意结果写分号2,print的单引号与非单引号的区别3. print 'hello'."\n"; 连接的时候变为双引号了就。4 print 可以加逗号的5.双引号和单引号的区别要区分6数字与字符串之间比较的区别———————————————————
2012-03-05 10:40:41 591
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人