自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

neo_2011的专栏

积累一点算一点……

  • 博客(6)
  • 收藏
  • 关注

原创 Larbin学习小结

Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。下图表示了一般爬虫抓取网页的基本过程。抓取以/Larbin.conf中的startUrl做为种子URLs开始。 下面先来看用于处理url的类:上面的类图只显示了url类可见的接口。除了基本的构造函数和私有变量的get函数,url类比较重要的函数是hashCode( ),其实现

2011-11-30 14:24:01 8887 1

原创 Hadoop伪分布式配置试用+eclipse配置使用

参考文档:http://hadoop.apache.org/common/docs/current/single_node_setup.html环境:WinXP+cygwin+hadoop-0.20.2解压hadoop到E:\hadoop-0.20.2,配置文件conf/hadoop-env.sh:# The java implementation to use. R

2011-11-29 14:06:33 3402 1

转载 Nutch 插件系统浅析

原文地址:http://www.ibm.com/developerworks/cn/java/j-lo-nutchplugin/?S_TACT=105AGX52&S_CMP=tec-csdnNutch 基本情况Nutch 是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发

2011-11-14 16:40:42 1035

转载 Nutch中MapReduce的分析

How Map and Reduce operations are actually carried outhttp://wiki.apache.org/nutch/MapReducehttp://wiki.apache.org/hadoop/MapReduce转载地址:http://blog.csdn.net/jiutao_tang/article/details/653

2011-11-14 16:38:49 1577

原创 WinXP+cygwin+eclipse配置nutch-1.2,添加IKAnalyzer中文分词

主要参考博客:配置:1,win7下cygwin + Eclipse + Nutch1.2 + Tomcat6 安装配置2,nutch1.1导入eclipse中运行3,nutch研究—基本使用相关说明添加中文分词包:4,Nutch1.2 添加IKAnalyzer中文分词5,nutch研究—遇到的错误和解决办法6,Nutch1.2二次开发详细攻略(四)【图文】---

2011-11-07 17:01:01 4772 2

原创 使用VSM计算文档相似度的一个程序示例

以前课程作业写的一个小程序,复习一下知识点……VSM(vector space model,向量空间模型)http://en.wikipedia.org/wiki/Vector_space_model本例中使用的TF-IDF权重模型公式为sim(q,d)等于TFdoc表示文档中词项出现的次数,TFq表示查询中词项出现的次数,df(w)表示出现词项的文档数,d

2011-11-06 16:46:07 5155 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除