一 简介
* 每个月取几十亿网页
* 为这些网页维护一个索引
* 对索引文件进行每秒上千次的搜索
* 提供高质量的搜索结果
* 以最小的成本运作
2 Hadoop 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
Hadoop是项目的总称,起源于作者儿子的一只玩具大象的名字。主要是由HDFS、MapReduce和Hbase组成。
HDFS是Google File System(GFS)的开源实现。
MapReduce是Google MapReduce的开源实现。
HBase是Google BigTable的开源实现。
3 Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到xml格式的查询结果。
二 hadoop0.20.2安装
<property>
<name>dfs.http.address</name>
<value>ip:port1</value>
<description>
The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
</description>
</property>
mapred-site.xml:
<property>
<name>mapred.job.tracker.http.address</name>
<value>ip:port2</value>
<description>
The job tracker http server address and port the server will listen on.
If the port is 0 then the server will start on a free port.
</description>
</property>
8 将hadoop目录拷贝到所有选择的其他机器的用户目录中
10 hdfs-site.xml
<property>
<name>dfs.data.dir</name>
<value>${hadoop.tmp.dir}/dfs/data</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>${hadoop.tmp.dir}/yl_dfs/</value>
</property>
每次重启前删掉对应目录
11 ./bin/hadoop namenode -format
12 ./bin/start-all.sh
三 nutch1.3安装
value="http://mirrors.ibiblio.org/pub/mirrors/maven2/"
override="false"/>
<name>http.agent.name</name>
<value>nutchspider_yl</value>
</property>
<property>
<name>http.robots.agents</name>
<value>nutchspider_yl,*</value>
<description>The agent strings we'll look for in robots.txt files,
comma-separated, in decreasing order of precedence. You should
put the value of http.agent.name as the first agent name, and keep the
default * at the end of the list. E.g.: BlurflDev,Blurfl,*
</description>
</property>
<name>mapreduce.job.jar.unpack.pattern</name>
<value>(?:classes/|lib/|plugins/).*</value>
</property>
<property>
<name>plugin.folders</name>
<value>${job.local.dir}/../jars/plugins</value>
</property>
四 sorl3.2安装
五 网页抓取和建立索引
~/hadoop/bin/hadoop fs -copyFromLocal urls hdfs_path/urls.txt
4、建立索引
生成的index在~/solr/example/solr/data/index/下面