吴楚狂生

征服自己!

Nutch Crawler工作流程

Nutch Crawler工作流程及文件格式详细分析Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、总体介绍:     1、先注入种子urls到...

2007-10-14 09:58:00

阅读数:13977

评论数:8

为log4j增加自定义级别

  并非在项目应用中原先的几个级别不够用了,通常的info,warn,debug ,error,fatal已经可以满足一般的应用,而且log4j也是不推荐用户自定义级别的。  由于在我们的搜索引擎里要为每天的巨大搜索量的日记进行分门别类的记录,面原先的几个级别在程序都已经按一般的需求使用了,所以就...

2007-09-26 10:46:00

阅读数:6357

评论数:0

个人常用的VIM命令列表

移动光标上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行下:j nj:向下移动n行左:h nh:向左移动n列右:l nl:向右移动n列 w:光标以单词向前移动 nw:光标向前移动n个单词 光标到单词的第一个字母上b:与w相反e: 光标以单词向前移动 ne:光标向前移动n个...

2007-09-26 09:47:00

阅读数:2207

评论数:1

最近的一些日子

   这个月刚毕业,真正进入社会了,回到浙江,加入了阿里集团。现在在阿里下的口碑网任职,专心进行搜索引擎的工作,上周开始到阿里软件来培训阿里集团内部的搜索引擎--它现在支撑着BtoB中文、英文、淘宝网、口碑网等的搜索。  在阿里工作感觉挺不错!!!  

2007-07-25 12:57:00

阅读数:2077

评论数:0

新闻聚类系统---news.baidu.com

要做一个新闻聚类系统,大概就和http://news.baidu.com类似的。 可是没有什么想法呀!  怎么办呢?  这样的新闻,  要有抓取,存到一种“格式”里,或XML,或HDFS或DB里,  二是要用分类器,基于SVM也好,KNN也好,  三是要有聚类-carrot2,或其它。  这样,三...

2006-12-01 22:31:00

阅读数:2569

评论数:2

阅读nutch.Analysis.jj

今晚对nutch的analysis.jj 进行了详细的阅读。这是我对它加入ICTCLAS分词后的.jj文件。/** * Copyright 2005 The Apache Software Foundation * * Licensed under the Apache License, Vers...

2006-11-17 22:56:00

阅读数:2344

评论数:0

昨天被新浪害死了。

亲爱的GF开了 博客我明明有好几次评论的了,可是我用的firefox ,新浪对firefox支持很不好,提示全是乱码!! 我也就不知道到底有没有发表成功,昨天一看才知道是没有成功,只得换ie了。女朋友发大火,说我不关心的心情,评论也没有,我好紧张呀!!!新浪你做就做得好一点嘛。真是受不了。

2006-11-09 11:13:00

阅读数:877

评论数:0

要毕业了,要找家公司安家了。

  现在是大四了,快要毕业了,也就面临着工作还是教研的选择。  这个选择我在一年就定了,先工作,再考研,为什么?  现在不是读研究生的时候。  因为我的知识没有完全进入自己的脑子里,我的个人观点是先工作,到自己觉得自己不能再深入了,不能想到什么的时候,进入高原的时候,那时就 是我去读研究生的时候。...

2006-10-20 19:37:00

阅读数:979

评论数:0

菜单,目录设计--自联结模式--数据库设计

连载之8原创:胖子刘(转载请注明作者和出处,谢谢)(二)自联结模式自联结模式,也可以看作是“主从模式”的一种特殊情况(或者说是“变形”),它在一张表内实现了“一对多关系”,并且可以根据业务需要实现“有限层”或者“无限层”的主从嵌套。这种模式用得最多的情况就是实现“树形结构”数据的存储,比如各大网站...

2006-08-18 14:40:00

阅读数:1495

评论数:0

介绍Junit,一个用来在项目中进行测试和调试的工具

这篇文章将向你介绍Junit,一个用来在项目中进行测试和调试的工具。在介绍完TDD(以测试驱动开发)理论后,将进一步讲解怎样在流行的Eclipse中建立你自己的JUnit测试。向你展示如何测试Hello World这样简单的程序。    许多书上都讨论了自动测试,但是只有很少的著作注意到这么一个问...

2006-08-10 14:04:00

阅读数:2792

评论数:0

一个老程序员的心里话说到人的心坎

诸位,咱当电子工程师也是十余年了,不算有出息,环顾四周,也没有看见几个有出息的!回顾工程师生涯,感慨万千,愿意讲几句掏心窝子的话,也算给咱们师弟师妹们提个醒,希望他们比咱们强! [1]好好规划自己的路,不要跟着感觉走!根据个人的理想决策安排,绝大部分人并不指望成为什么院士或教授,而是希望活得滋润一...

2006-07-23 09:26:00

阅读数:791

评论数:1

UML学习笔记

2006.06.01     <!-- show_ads_zone(13); //--> ...

2006-06-01 22:24:00

阅读数:905

评论数:0

Java学习之路:不走弯路,就是捷径

Java学习之路:不走弯路,就是捷径 作者:刘晓涛 ...

2006-05-25 19:41:00

阅读数:1117

评论数:2

MyEclipse Struts 快速上手

1. 序 此文档适应 Sun JDK 1.4.2, Eclipse 3.0.1 and MyEclipse 3.8.2. 环境。所有的屏幕截图都是基于 Eclipse, MyEclipse Enterprise Workbench, and Windows XP 的默认用户接口设置。如果你在使用这...

2006-05-25 11:08:00

阅读数:1097

评论数:0

用UML设计Java应用程序-处理图书馆借阅和预定图书和杂志

用UML设计Java应用程序 (来源:转载自umlchina,Hans-Erik Erikkson, Magnus Penker著,刘忠(caulzhong@sina.com) 译 ) ...

2006-05-18 21:50:00

阅读数:3996

评论数:0

linux开发服务器环境搭建

开发服务器环境搭建 目的:在Linux平台上搭建一个协同开发工作环境 软件:Linux 2.6 + Apache2 + PHP4.x + Mysql5.x; subversion1.3.1 + mantis1.0.2 基本思路: 使用LAMP搭建一个We...

2006-05-10 21:41:00

阅读数:2344

评论数:0

java面试题集

java面试题集基础知识: 1.C++或Java中的异常处理机制的简单原理和应用。 当JAVA程序违反了JAVA的语义规则时,JAVA虚拟机就会将发生的错误表示为一个异常。违反语义规则包括2种情况。一种是JAVA类库内置的语义检查。例如数组下标越界,会引发IndexOutOfBoundsExcep...

2006-05-07 20:57:00

阅读数:948

评论数:0

面试题(整理了一下)

1、线形表a、b为两个有序升序的线形表,编写一程序,使两个有序线形表合并成一个有序升序线形表h;2、运用四色定理,为N个局域举行配色,颜色为1、2、3、4四种,另有数组adj[][N],如adj[i][j]=1则表示i区域与j区域相邻,数组color[N],如color[i]=1,表示i区域的颜色...

2006-05-05 15:17:00

阅读数:2585

评论数:0

java 多线程 写程序

一、简介 1、什么是线程   要说线程,就必须先说说进程,进程就是程序的运行时的一个实例。线程呢可以看作单独地占有CPU时间来执行相应的代码的。对早期的计算机...

2006-05-05 14:25:00

阅读数:740

评论数:0

java面试题集

java面试题集基础知识: 1.C++或Java中的异常处理机制的简单原理和应用。 当JAVA程序违反了JAVA的语义规则时,JAVA虚拟机就会将发生的错误表示为一个异常。违反语义规则包括2种情况。一种是JAVA类库内置的语义检查。例如数组下标越界,会引发IndexOutOfBoundsExcep...

2006-05-05 14:22:00

阅读数:617

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭