吴楚狂生

征服自己!

排序:
默认
按更新时间
按访问量

高端?低端?谢谢!

http://babatu.blogspot.com/2009/04/blog-post_23.html 首先恭喜你!为什么呢?因为如果你看了这个标题后,并进来读这篇文章时,表示你是一个高端互联网用户了。这篇文章我们就来看一下互联网中高端与低端。何为高端,何为低端?可以用地图来解释一下,如果一个互...

2009-04-24 10:32:00

阅读数:3599

评论数:0

一个让我用得很爽的个性导航h2w1.com

  一直对hao123所发现的市场所感慨。原来低端的市场这么大,这么强。  但毕竟自己不在这一市场里,但是网址导航却也是实实在在的需求。之前用过igoogle,刚开始感觉还可以,但实在是太强大了,大到它的目标是想去让用户把它当作自己的“桌面”。一点一点把内容加进来后,发现我不想再去igoogle了...

2009-04-04 16:00:00

阅读数:4284

评论数:0

UNIX 高手的 10 个习惯

Michael Stutz (stutz@dsl.org), 作者, 顾问 2007 年 2 月 09 日 采 用 10 个能够提高您的 UNIX® 命令...

2007-11-23 13:22:00

阅读数:3838

评论数:2

Nutch距离一个商业应用的搜索引擎还有多远

    参考:http://lotusroots.bokee.com/6106980.html    了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是...

2007-11-05 14:58:00

阅读数:4353

评论数:5

nutch的cache策略及cache策略研究

              一个成熟的商业搜索引擎的cache应该是比较成功的,因为在长期的实践中证明 cache的好坏很大地影响着搜索引擎的效率。虽然I/O、算法等等很大地影响着搜索效率,但是在相差不大或着说在同一数量级上时,cache却可以让引 擎的效率成倍或大大地提高。在nutch中当然也是...

2007-11-02 13:43:00

阅读数:4260

评论数:1

Nutch的Analysis包详解

    对于中国用户,最早遇到的棘手问题可能就是中文分词了。由于nutch对中文的支持默认是单字分词,所以很多人在一拿到nutch后要解决的第二件事情 (第一件事情当然是让nutch跑起来了)往往是要加入一个可行的中文分词模块。所以对这个包研究的人也是最多的,在网上关于nutch的中文分词的文章 ...

2007-10-23 15:24:00

阅读数:3698

评论数:4

Nutch Crawler工作流程

Nutch Crawler工作流程及文件格式详细分析Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、总体介绍:     1、先注入种子urls到...

2007-10-14 09:58:00

阅读数:13976

评论数:8

Hadoop -- Map-Reduce具体实现详解

HadoopMapReduce --Map-Reduce具体实现详解 Keyword:     FileSplit:文件的子集--文件分割体 简介:   这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉,请先参阅MapR...

2007-10-08 15:27:00

阅读数:18110

评论数:9

为log4j增加自定义级别

  并非在项目应用中原先的几个级别不够用了,通常的info,warn,debug ,error,fatal已经可以满足一般的应用,而且log4j也是不推荐用户自定义级别的。  由于在我们的搜索引擎里要为每天的巨大搜索量的日记进行分门别类的记录,面原先的几个级别在程序都已经按一般的需求使用了,所以就...

2007-09-26 10:46:00

阅读数:6348

评论数:0

个人常用的VIM命令列表

移动光标上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行下:j nj:向下移动n行左:h nh:向左移动n列右:l nl:向右移动n列 w:光标以单词向前移动 nw:光标向前移动n个单词 光标到单词的第一个字母上b:与w相反e: 光标以单词向前移动 ne:光标向前移动n个...

2007-09-26 09:47:00

阅读数:2204

评论数:1

windows下的hadoop的分布部署

1.windows下的hadoop的分布部署主要有两种方式1.1.采用cygwin模拟linux下命令的方式,部署安装hadoop系统.  1.2.修改系统的代码文件DF.java使其可以在windows下运行.   主要原因在于,在hadoop的代码中对数据节点的磁盘使用情况的获取采用了  li...

2007-09-13 10:13:00

阅读数:3353

评论数:0

linux sed 批量替换多个文件中的字符串

一、linux sed 批量替换多个文件中的字符串sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir`例如:替换/home下所有文件中的www.bcak.com.cn为bcak.com.cnsed -i &q...

2007-08-24 13:02:00

阅读数:47931

评论数:5

nutch插件加载机制

当某个插件需要被加载时, Nutch 会加载所有插件的相关接口到缓存,此后每个插件需要实例的时候,根据相关接口和相关接口实现实例在缓存内的记录,使用反射实现一个实例并返回,下面以 QueryFilter 的所有插件被加载例子进行说明。 ...

2007-08-24 09:58:00

阅读数:3192

评论数:0

Spirit+lucene+nutch

  垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸, 是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别 是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息...

2007-08-23 12:30:00

阅读数:2968

评论数:0

自动生成的makefile写法

makefile写法2004-04-23 15:18 pm来自:Linux文档现载:Www.8s8s.coM地址:无名Abstract: 在 Unix 上写程式的人大概都碰过 Makefile,尤其是用 C 来开发程式的人。用 make来开发和编译程式的确很方便,可是要写出一个 Makefile...

2007-08-17 10:44:00

阅读数:2305

评论数:0

linux网络配置

原文地址 http://www.ubuntugeek.com/ubuntu-networking-configuration-using-command-line.html 以eth0为例1. 以DHCP方式配置网卡编辑文件/etc/network/interfaces:sudo vi /etc/...

2007-08-12 12:38:00

阅读数:2064

评论数:0

在BtoB学习的一个来月

  从口碑到BtoB学习了一个来月了,在这个月里,感觉时间过得好快。来学习,也是来做项目的,因为口碑用的搜索是BtoB的技术,我们争取一定要把它自己掌握以后学以至用。  带着两个需求过来,一开始就以需求为中心行动起来。  先把字典分词搞定,再把按推荐菜次数排序搞定,最后宪哥又多了一个排店铺到临时所...

2007-08-07 11:53:00

阅读数:2042

评论数:0

nutch0.9, 性能大为提升。

  很多用lucene和nutch的用户都有一个很大的烦恼,就是它的性能和稳定性在工程上确实不是很让人感觉满意。  不过nutch0.9出来可以让大家多了一点信心,也为自己的项目多了一份保险。据FooFactory的测试,nutch9比nutch8在速度上提升了两倍,存储空间也降了一半。 The ...

2007-07-27 23:23:00

阅读数:3317

评论数:0

最近的一些日子

   这个月刚毕业,真正进入社会了,回到浙江,加入了阿里集团。现在在阿里下的口碑网任职,专心进行搜索引擎的工作,上周开始到阿里软件来培训阿里集团内部的搜索引擎--它现在支撑着BtoB中文、英文、淘宝网、口碑网等的搜索。  在阿里工作感觉挺不错!!!  

2007-07-25 12:57:00

阅读数:2077

评论数:0

Heritrix-- 开源crawler

    是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。   IA期望他们的crawler包含以下几种:   宽带爬虫:...

2007-01-18 13:29:00

阅读数:3783

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭