自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

jollyjumper的专栏

一点记录

  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 随机抽取数据

从url列表文件中随机抽取一万个url,怎么做 ?当然要求就是要随机,即每个url被取中的概率相同。开始我只能想到从指定记录数的列表中取,那样直接按概率取随机数确定就可以,这时也不用保存取出的url,可以直接输出。假定有n条记录,要取m条,取第一条的概率是m/n,后面都是条件概率,前面已经取中k条的情况下该条取中的概率多少。在记录未知的情况下,可能的做法是不停地校正概率。直觉上单个取中的概率越来越少,所以只需要考虑前面抽中的是否需要剔除,而不考虑漏掉的是否再补上。开始一条一条的读,因为总是假定总记录数为当前

2011-05-13 01:05:00 1076

原创 大量url去重问题

<br />url列表文件高达1G那么大,可是内存只有128M,怎么办?<br />其实工作很经常遇到这个问题(常常动不动一个文件就接近10G),因为需要统计站点、后缀什么的。可每次我都是直接用sort,uniq命令几行解决,大概因为前一段时间在看shell根本不会往深了想每次做次统计都要等几个小时(脑子僵化得可以了)。<br />这个问题的经典做法是,对url进行fingerprint之后取模,用这种办法将文件切分成若干个小文件,而这些小文件直接用哈希表就可以消重,然后这些文件直接合并,虽然Fin

2011-05-12 21:01:00 2418

原创 Fedora12配置SVN服务器

安装和配置过程需以root来完成。必须先安装apache(http://blog.csdn.net/jollyjumper/archive/2011/05/05/6395440.aspx)、mod_dav_svn(apache的svn模块)。然后yum install subversion。(yum有个UI工具yum extender,yum -y yumex安装,在桌面Applications->System可找到)mkdir -p /var/www/svn/cd /var/www/svn/

2011-05-09 18:28:00 954

原创 POJ 2240 解题报告

<br />套汇差就是汇率的图中存在一条汇率乘积大于1的环。因为一开始已经明确是Bellman-Ford算法,所以把汇率c变成-log(c)付给边作权,这样就是看这个图是否存在权值和为负数的环,用该算法就非常地道了。<br />#include <cstdio>#include <cmath>#include <map>#include <string>using namespace std;struct tagTuple { // store edge info int

2011-05-07 18:34:00 742

原创 写了一个LRU Cache

公司的LRU简单,我自己也写了一个,需要自己写堆。// Author: johnhall@126.com// Description:#ifndef LRUCACHE_H_#define LRUCACHE_H_#include #include "util/hash_tables.h"namespace crawl {template >class LRUCache { protected: struct EntryType { KeyType k;

2011-05-05 02:35:00 1358 3

原创 Fedora12 安装Sphinx 2.0.1 beta

从sphinxsearch.com下载sphinx2.0.1 beta之后解压就可以开始安装了。必须先装mysql和php(http://blog.csdn.net/jollyjumper/archive/2011/05/05/6395440.aspx)./configure #最好加--prefix=/usr/local/sphinx,这样目录更清晰make;make installcd /usr/local/etccp spinx.conf.dist sphinx.confmysql -u test m

2011-05-05 00:57:00 991

转载 Fedora 12 LAMP的安装

chkconfig --levels 235 httpd on 现在就可以访问http://localhost,可以看到Apache页面了! 3.安装PHP5 yum install php /etc/init.d/httpd restart  在/var/www/html中加入文件info.php: phpinfo(); ?> 通过访问http://localhost/info.php可以看到PHP安装的模块,MySql没有列出,>        下面让PHP5支持MySQ

2011-05-05 00:44:00 808

Scons User Guide 2.01

Scons号称下一代自动编译工具,相比于make,它的生成脚本使用Python而不像makefile那样新创造一种语言。我认为它是autoconfig,makefile的很好替代。

2011-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除