- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 随机抽取数据
从url列表文件中随机抽取一万个url,怎么做 ?当然要求就是要随机,即每个url被取中的概率相同。开始我只能想到从指定记录数的列表中取,那样直接按概率取随机数确定就可以,这时也不用保存取出的url,可以直接输出。假定有n条记录,要取m条,取第一条的概率是m/n,后面都是条件概率,前面已经取中k条的情况下该条取中的概率多少。在记录未知的情况下,可能的做法是不停地校正概率。直觉上单个取中的概率越来越少,所以只需要考虑前面抽中的是否需要剔除,而不考虑漏掉的是否再补上。开始一条一条的读,因为总是假定总记录数为当前
2011-05-13 01:05:00 1078
原创 大量url去重问题
<br />url列表文件高达1G那么大,可是内存只有128M,怎么办?<br />其实工作很经常遇到这个问题(常常动不动一个文件就接近10G),因为需要统计站点、后缀什么的。可每次我都是直接用sort,uniq命令几行解决,大概因为前一段时间在看shell根本不会往深了想每次做次统计都要等几个小时(脑子僵化得可以了)。<br />这个问题的经典做法是,对url进行fingerprint之后取模,用这种办法将文件切分成若干个小文件,而这些小文件直接用哈希表就可以消重,然后这些文件直接合并,虽然Fin
2011-05-12 21:01:00 2419
原创 Fedora12配置SVN服务器
安装和配置过程需以root来完成。必须先安装apache(http://blog.csdn.net/jollyjumper/archive/2011/05/05/6395440.aspx)、mod_dav_svn(apache的svn模块)。然后yum install subversion。(yum有个UI工具yum extender,yum -y yumex安装,在桌面Applications->System可找到)mkdir -p /var/www/svn/cd /var/www/svn/
2011-05-09 18:28:00 954
原创 POJ 2240 解题报告
<br />套汇差就是汇率的图中存在一条汇率乘积大于1的环。因为一开始已经明确是Bellman-Ford算法,所以把汇率c变成-log(c)付给边作权,这样就是看这个图是否存在权值和为负数的环,用该算法就非常地道了。<br />#include <cstdio>#include <cmath>#include <map>#include <string>using namespace std;struct tagTuple { // store edge info int
2011-05-07 18:34:00 742
原创 写了一个LRU Cache
公司的LRU简单,我自己也写了一个,需要自己写堆。// Author: johnhall@126.com// Description:#ifndef LRUCACHE_H_#define LRUCACHE_H_#include #include "util/hash_tables.h"namespace crawl {template >class LRUCache { protected: struct EntryType { KeyType k;
2011-05-05 02:35:00 1358 3
原创 Fedora12 安装Sphinx 2.0.1 beta
从sphinxsearch.com下载sphinx2.0.1 beta之后解压就可以开始安装了。必须先装mysql和php(http://blog.csdn.net/jollyjumper/archive/2011/05/05/6395440.aspx)./configure #最好加--prefix=/usr/local/sphinx,这样目录更清晰make;make installcd /usr/local/etccp spinx.conf.dist sphinx.confmysql -u test m
2011-05-05 00:57:00 991
转载 Fedora 12 LAMP的安装
chkconfig --levels 235 httpd on 现在就可以访问http://localhost,可以看到Apache页面了! 3.安装PHP5 yum install php /etc/init.d/httpd restart 在/var/www/html中加入文件info.php: phpinfo(); ?> 通过访问http://localhost/info.php可以看到PHP安装的模块,MySql没有列出,> 下面让PHP5支持MySQ
2011-05-05 00:44:00 808
Scons User Guide 2.01
2011-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人