- 博客(6)
- 收藏
- 关注
原创 Larbin学习小结
Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。下图表示了一般爬虫抓取网页的基本过程。抓取以/Larbin.conf中的startUrl做为种子URLs开始。 下面先来看用于处理url的类:上面的类图只显示了url类可见的接口。除了基本的构造函数和私有变量的get函数,url类比较重要的函数是hashCode( ),其实现
2011-11-30 14:24:01 8887 1
原创 Hadoop伪分布式配置试用+eclipse配置使用
参考文档:http://hadoop.apache.org/common/docs/current/single_node_setup.html环境:WinXP+cygwin+hadoop-0.20.2解压hadoop到E:\hadoop-0.20.2,配置文件conf/hadoop-env.sh:# The java implementation to use. R
2011-11-29 14:06:33 3402 1
转载 Nutch 插件系统浅析
原文地址:http://www.ibm.com/developerworks/cn/java/j-lo-nutchplugin/?S_TACT=105AGX52&S_CMP=tec-csdnNutch 基本情况Nutch 是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发
2011-11-14 16:40:42 1035
转载 Nutch中MapReduce的分析
How Map and Reduce operations are actually carried outhttp://wiki.apache.org/nutch/MapReducehttp://wiki.apache.org/hadoop/MapReduce转载地址:http://blog.csdn.net/jiutao_tang/article/details/653
2011-11-14 16:38:49 1577
原创 WinXP+cygwin+eclipse配置nutch-1.2,添加IKAnalyzer中文分词
主要参考博客:配置:1,win7下cygwin + Eclipse + Nutch1.2 + Tomcat6 安装配置2,nutch1.1导入eclipse中运行3,nutch研究—基本使用相关说明添加中文分词包:4,Nutch1.2 添加IKAnalyzer中文分词5,nutch研究—遇到的错误和解决办法6,Nutch1.2二次开发详细攻略(四)【图文】---
2011-11-07 17:01:01 4773 2
原创 使用VSM计算文档相似度的一个程序示例
以前课程作业写的一个小程序,复习一下知识点……VSM(vector space model,向量空间模型)http://en.wikipedia.org/wiki/Vector_space_model本例中使用的TF-IDF权重模型公式为sim(q,d)等于TFdoc表示文档中词项出现的次数,TFq表示查询中词项出现的次数,df(w)表示出现词项的文档数,d
2011-11-06 16:46:07 5155 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人