- 博客(20)
- 收藏
- 关注
转载 剖析NUTCH爬虫
http://www.cnblogs.com/kwklover/articles/445925.html牛顿先生告诉我们,如果想看的远,那就得站到巨人的肩膀上。所以,在自己动手之前,前辈们的研究成果不能不先看看。在网上搜索并整理了一下,发现关于NUTCH的中文学习资料或者说是心得真的不多,其中大部分还都是关注于怎么安装配置上面,稍微深入一点的东西就只能看英文的了。看英文对于大家来说当然难度
2008-05-25 20:48:00 2741 2
原创 centos下设置ssh连接时间
基于安全的理由,如果用户连线到 SSH Server 后闲置,SSH Server 会在超过特定时间后自动终止 SSH 连线。以下是设定终止连线时间的方法: 1. 开启 /etc/ssh/sshd_config 档案,里面有一个参数为 ClientAliveCountMax,它是设定用户端的 SSH 连线闲置多长时间后自动终止连线的数值,单位为分钟。 2. 如果这一行最前面有#号,将那个#
2008-05-24 22:52:00 3395
转载 算法是百度工程师的利器
算法是百度工程师的利器2007年05月20日 星期日 17:47 “工欲善其事,必先利其器”,对于百度工程师来说,算法就是他们解决难题的利器。为什么这么说?因为百度搜索引擎研发的各个环节都离不开算法。我们需要快速,准确、实用、创新和不断改进的算法来满足用户的需求。 百度面对的是
2008-05-24 10:02:00 1045
转载 搜索引擎工程师的7种武器
发信人: pennyliang (pennyliang), 信区: SearchEngineTech标 题: 搜索引擎工程师的7种武器发信站: 水木社区 (Sat Mar 22 09:23:09 2008), 站内precomputing:offline/online structure,indexing,dp等都属于这个范畴representing: 数据结构,问题简化distributing
2008-05-24 09:36:00 919 1
转载 linux下的dns设置详解
2004年08月18日02:04 作者: 【大 中 小】作者:Slice更新:Boban更新日期: 2004-05-10①简介DNS就是Domain Name System,它能够把形如www.21php.com这样的域名转换为211.152.50.35这样的IP地址;没有DNS,浏览21php.com这个网站时,就必须用211.152.50.35这么难记的数字来访问。提供DNS服务的就
2008-05-09 00:11:00 595
转载 Tomcat启动分析
Tomcat笔记(1)heavyz, 2003-03-221 - Tomcat Server的组成部分 1.1 - Server A Server element represents the entire Catalina servlet container. (Singleton) 1.2 - Service A Service element represents the
2008-05-08 22:33:00 663
原创 centos下装jdk,nutch,tomcat
centos下装jdk./jdk-6u6-linux-i586-rpm.bin在当前目录下出现jdk-6u6-linux-i586.rpm;rpm -ivh jdk-6u6-linux-i586.rpm // must use rootthen can run java in the shell. // no need to set the env然后有了/usr/java/jdk1.6.0_
2008-05-08 17:26:00 1568
转载 Hadoop学习笔记
作者: wayne1017 一、简要介绍这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 言归正传,先说一下Hadoop的来龙去脉。谈
2008-05-07 17:41:00 669
转载 Memcached深度分析
这是本人今年最后一篇文字作品,出得比较急,也相当不全面,最后还是决定贴到村里来。明天早上我就回沈阳过年了,祝大家情人节 & 春节快乐,猪年发财Memcached深度分析Memcached是danga.com(运营LiveJournal的技术团队)开发的一套分布式内存对象缓存系统,用于在动态系统中减少数据库负载,提升性能。关于这个东西,相信很多人都用过,本文意在通过对memcached的实现
2008-05-06 10:30:00 598
转载 Linux系统环境变量详谈
http://www.gbunix.com/htmldata/2006_08/1/3/article_1348_1.html
2008-05-05 21:12:00 627
转载 Nutch 初体验
作者: Fenng | 可以转载, 转载时务必以超链接形式标明文章原始出处和作者信息及版权声明网址: http://www.dbanotes.net/web/nutch.html 前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具 一文提到 Nutch,很是感兴趣,但一直没有时间进行测试研究。趁着假期,先测试一下看看。用搜索引擎查找了一下,发现中文技术社区对 Larbin 的关
2008-05-05 10:16:00 760
原创 MaxSection 最长平台
#includeusing namespace std;int MaxSection(int *a, int n){ int max,i,sum; max=-200000000; sum=0; for(i=0;i sum=sum+a[i]; if(sum>max) max=sum; if(sum } return max;}void main(){ int a[]={2,2,3,
2008-05-03 19:33:00 755
转载 trie 树
http://www.cppblog.com/zoyi-hang/archive/2008/04/06/46355.htmltrie 树好不容易写的一个模版~本来是想按照我们数据结构教程的trie树来写,但是他的实现我实在觉得太难所以还是采用简化版的trie树这个应该算是比较标准的trie树结构,但是他的插入实现起来不仅仅是插入本身的单词,可能还需要修改原来的数结构比如说本身已经存在了
2008-05-03 19:15:00 935
转载 Trie Tree and some DS&Athm sample
http://www.blogjava.net/wqnashqu/archive/2007/12/13/167586.htmlTrie Tree and some DS&Athm sample Trie树的定义(转)Trie树是一棵度 m ≥ 2 的树,它的每一层分支不是靠整个关键码的值来确定,而是由关键码的一个分量来确定。如下图所示Trie树,关键码由英文字母组成。它包括两类结点:元
2008-05-03 18:35:00 1651
原创 heapsort
#includeiostream>using namespace std;void DownAdjust(int *a, int first, int last)...{ int tmp,down; tmp = a[first]; for(down = first*2+1; down last; down=down*2+1)...{// if(downa[down+1])
2008-05-03 16:38:00 634
原创 C++中的explicit
简而言之:explicit修饰的构造函数不能担任类型转换函数这个 《ANSI/ISO C++ Professional Programmers Handbook 》是这样说的explicit ConstructorsA constructor that takes a single argument is, by default, an implicit conversion operator,
2008-05-03 10:34:00 798
转载 百度首席架构师,百度贴吧之父:俞军的求职简历
下面是百度首席架构师,百度贴吧之父:俞军的求职简历.作为真正改变中国互联网状态的极少数几个人之一,俞军这份严重区别于现在官方介绍求职简历让人唏嘘不已. 下面是简历全文,隐去联系方式 搜索引擎9238,男,26岁,上海籍,同济大学化学系五年制,览群书,多游历。 97年7月起在一个国营单位筹备进口生产项目。 99年4月起在一个代理公司销售进口化工原料兼报关跟单。 2000
2008-05-03 09:47:00 1081
原创 关于lucene断点续索引和增量索引的问题zz
http://www.cnblogs.com/onlytiancai/archive/2007/03/27/689697.html1、像百度、google等桌面搜索建立索引的时候可以停止后重新索引,他能保证以前索引过的文件重新索引的时候不用再索引吗?如果停止后要索引的文件进行了删除和添加等操作,那么他是怎么处理的以保证索引文件的覆盖率。用lucene索引文件的时候如何实现这种功能,给个思路。2
2008-05-01 17:28:00 725
转载 国外技术博客 英文技术网站
TechCrunch Web2.0 先生提供的第一手消息·Read/WriteWeb 对Web2.0分析评论见长 ·Slashdot 全球最大的技术博客网站 ·Engadget 硬件、数码潮流博客 中文版 ·Searchblog 约翰·巴特利搜索引擎观察 ·Scobleizer 全球最著名企业博客斯考伯 ·Valleywag 硅谷闲话,制造传播硅谷谣言 ·Scripti
2008-05-01 17:13:00 3389
转载 求一个字符串中连续出现次数最多的子串
发信人: RoBa269 (roba), 信区: Algorithm标 题: Re: 请教:求一个字符串中连续出现次数最多的子串发信站: 水木社区 (Tue Apr 29 19:41:59 2008), 站内我有一个时间O(n^2),空间O(n)的算法枚举连续子串的起点,这样问题变成了,求一个字串的前缀最多是重复了多少次得到的。这个问题可以用KMP算法的结果得出。跑一遍KMP,求出那个失配以后向
2008-05-01 01:04:00 922
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人