关闭

高端?低端?谢谢!

http://babatu.blogspot.com/2009/04/blog-post_23.html 首先恭喜你!为什么呢?因为如果你看了这个标题后,并进来读这篇文章时,表示你是一个高端互联网用户了。这篇文章我们就来看一下互联网中高端与低端。何为高端,何为低端?可以用地图来解释一下,如果一个互联网产品的使用用户开始从我天朝东部发达地区开始,那就可以把它称为高端;反之,如果开始时的用户从...
阅读(3066) 评论(0)

一个让我用得很爽的个性导航h2w1.com

  一直对hao123所发现的市场所感慨。原来低端的市场这么大,这么强。  但毕竟自己不在这一市场里,但是网址导航却也是实实在在的需求。之前用过igoogle,刚开始感觉还可以,但实在是太强大了,大到它的目标是想去让用户把它当作自己的“桌面”。一点一点把内容加进来后,发现我不想再去igoogle了。因为每天上网的起点实在是全面了,以致于我基本不上其它网站,而不敢再去用它了。  现在我用h2...
阅读(3712) 评论(0)

UNIX 高手的 10 个习惯

Michael Stutz (stutz@dsl.org), 作者, 顾问 2007 年 2 月 09 日 采 用 10 个能够提高您的 UNIX® 命令行效率的好习惯——并在此过程中摆脱不良的使用模式。本文循序渐进地指导您学习...
阅读(3381) 评论(2)

Nutch距离一个商业应用的搜索引擎还有多远

    参考:http://lotusroots.bokee.com/6106980.html    了解nutch的人基本上对这个开源的系统都是比较欣赏的,起码在国内是这样的,也很有多搜索网站是基于这个系统修改过来的,不过要做得好,做得真正是一个商业化的搜索,这个修改就不是一朝一夕的事情,也不是修修剪剪那么简单了。    作为一个通用的全网级别的搜索引擎架构,nutch(lucene)确实为广大...
阅读(3786) 评论(5)

nutch的cache策略及cache策略研究

              一个成熟的商业搜索引擎的cache应该是比较成功的,因为在长期的实践中证明 cache的好坏很大地影响着搜索引擎的效率。虽然I/O、算法等等很大地影响着搜索效率,但是在相差不大或着说在同一数量级上时,cache却可以让引 擎的效率成倍或大大地提高。在nutch中当然也是有cache的,只不过比较初级而已。        在nutch中负责cache的是...
阅读(3769) 评论(1)

Nutch的Analysis包详解

    对于中国用户,最早遇到的棘手问题可能就是中文分词了。由于nutch对中文的支持默认是单字分词,所以很多人在一拿到nutch后要解决的第二件事情 (第一件事情当然是让nutch跑起来了)往往是要加入一个可行的中文分词模块。所以对这个包研究的人也是最多的,在网上关于nutch的中文分词的文章 也是人气很高的。那么就让我们一起来走近它看看它到底是怎么一回事,也让我们来做个中文分词器让中文在nut...
阅读(3228) 评论(4)

Nutch Crawler工作流程

Nutch Crawler工作流程及文件格式详细分析Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、总体介绍:     1、先注入种子urls到crawldb     2、循环: generate 从crawldb中生成一个ur...
阅读(13265) 评论(7)

Hadoop -- Map-Reduce具体实现详解

HadoopMapReduce --Map-Reduce具体实现详解 Keyword:     FileSplit:文件的子集--文件分割体 简介:   这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对Google的MapReduce各式模式不熟悉,请先参阅MapReduce--http://labs.google.com/papers/mapred...
阅读(17425) 评论(9)

为log4j增加自定义级别

  并非在项目应用中原先的几个级别不够用了,通常的info,warn,debug ,error,fatal已经可以满足一般的应用,而且log4j也是不推荐用户自定义级别的。  由于在我们的搜索引擎里要为每天的巨大搜索量的日记进行分门别类的记录,面原先的几个级别在程序都已经按一般的需求使用了,所以就必要自己再定义出新的级别以满足我们的需求。  为log4j增加自定义级别其实是一件比较简单的事件。  ...
阅读(5102) 评论(0)

个人常用的VIM命令列表

移动光标上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行下:j nj:向下移动n行左:h nh:向左移动n列右:l nl:向右移动n列 w:光标以单词向前移动 nw:光标向前移动n个单词 光标到单词的第一个字母上b:与w相反e: 光标以单词向前移动 ne:光标向前移动n个单词 光标到单词的最后一个字母上ge:与e相反$:移动光标到行尾 n$:移动到第n行的行尾...
阅读(1808) 评论(1)

windows下的hadoop的分布部署

1.windows下的hadoop的分布部署主要有两种方式1.1.采用cygwin模拟linux下命令的方式,部署安装hadoop系统.  1.2.修改系统的代码文件DF.java使其可以在windows下运行.   主要原因在于,在hadoop的代码中对数据节点的磁盘使用情况的获取采用了  linux下的df -k 命令进行获取而在windows没有此命令支持,因此在数据节点启动DataNode...
阅读(2904) 评论(0)

linux sed 批量替换多个文件中的字符串

一、linux sed 批量替换多个文件中的字符串sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir`例如:替换/home下所有文件中的www.bcak.com.cn为bcak.com.cnsed -i "s/www.bcak.com.cn/bcak.com.cn/g" `grep www.bcak.com.cn -rl /ho...
阅读(39565) 评论(5)

nutch插件加载机制

当某个插件需要被加载时, Nutch 会加载所有插件的相关接口到缓存,此后每个插件需要实例的时候,根据相关接口和相关接口实现实例在缓存内的记录,使用反射实现一个实例并返回,下面以 QueryFilter 的所有插件被加载例子进行说明。   具体代码参看org.apache.nutch.seache...
阅读(2799) 评论(0)

Spirit+lucene+nutch

  垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸, 是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别 是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以 网页块为最小单位,而垂直搜索是以结构化...
阅读(2551) 评论(0)

自动生成的makefile写法

makefile写法2004-04-23 15:18 pm来自:Linux文档现载:Www.8s8s.coM地址:无名Abstract: 在 Unix 上写程式的人大概都碰过 Makefile,尤其是用 C 来开发程式的人。用 make来开发和编译程式的确很方便,可是要写出一个 Makefile就不简单了。偏偏介绍 Makefile 的文件不多,GNU Make 那份印出来要几百页的文件,光看完...
阅读(1902) 评论(0)

linux网络配置

原文地址 http://www.ubuntugeek.com/ubuntu-networking-configuration-using-command-line.html 以eth0为例1. 以DHCP方式配置网卡编辑文件/etc/network/interfaces:sudo vi /etc/network/interfaces并用下面的行来替换有关eth0的行:# T...
阅读(1667) 评论(0)

在BtoB学习的一个来月

  从口碑到BtoB学习了一个来月了,在这个月里,感觉时间过得好快。来学习,也是来做项目的,因为口碑用的搜索是BtoB的技术,我们争取一定要把它自己掌握以后学以至用。  带着两个需求过来,一开始就以需求为中心行动起来。  先把字典分词搞定,再把按推荐菜次数排序搞定,最后宪哥又多了一个排店铺到临时所先择的中心点距离来排序。三个需求下来。对isearch的认识也加深了不少,也很感觉BtoB这边的孙海涛...
阅读(1627) 评论(0)

nutch0.9, 性能大为提升。

  很多用lucene和nutch的用户都有一个很大的烦恼,就是它的性能和稳定性在工程上确实不是很让人感觉满意。  不过nutch0.9出来可以让大家多了一点信心,也为自己的项目多了一份保险。据FooFactory的测试,nutch9比nutch8在速度上提升了两倍,存储空间也降了一半。 The following graph shows how the size of equal cra...
阅读(2946) 评论(0)

最近的一些日子

   这个月刚毕业,真正进入社会了,回到浙江,加入了阿里集团。现在在阿里下的口碑网任职,专心进行搜索引擎的工作,上周开始到阿里软件来培训阿里集团内部的搜索引擎--它现在支撑着BtoB中文、英文、淘宝网、口碑网等的搜索。  在阿里工作感觉挺不错!!!  ...
阅读(1683) 评论(0)

Heritrix-- 开源crawler

    是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。   IA期望他们的crawler包含以下几种:   宽带爬虫:能够以更高的带宽去站点爬。   主题爬虫:集中于被选择的问题。   持续爬虫:不仅仅爬更当前的网页还负...
阅读(3409) 评论(1)
114条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:286923次
    • 积分:3566
    • 等级:
    • 排名:第9846名
    • 原创:60篇
    • 转载:51篇
    • 译文:3篇
    • 评论:96条
    最新评论