Nutch-1.9+solr4.6.1+tomcat8.5.29搭建一个搜索引擎(windows10)

一、需要的工具(尽量使用下面这些版本的软件,否则的话,不知道会出现什么问题)

tomcat8.5.29(选择压缩包吧,比较方便):tomcat8.5.29

apache-nutch-1.9-bin.tar.gz:nutch-1.9

solr-4.6.1.tgz:solr4.6.1

eclipse:eclipse

IK-Analyzer-2012FF:IK-Analyzer-2012FF

hadoop-core-1.2.1.jar(用来解决Failed to set permissions of path:\tmp\... to 0700问题):hadoop-core-1.2.1.jar

二、安装jdk

网上教程一大堆,我装的是jdk1.8.0_162,记得配置环境变量。

三、安装tomcat8.5.29

下载tomcat8.5.29.zip,随便解压到哪,不过父目录中最好不要有中文,我直接解压到了C盘,解压完成后,进入C:\apache-tomcat-8.5.29\bin,双击start.bat,在浏览器中输入localhost:8080,就会出现apach的欢迎界面,如果报错,那可能是因为解压的问题,一般来说,都不会出现什么例外状况。

四、安装cygwin64

因为nutch和solr适合在linux下运行,所以想要在windows中使用它们,就得装一个叫做cygwin的软件,我装的是64位的,在网上下载cygwin64的exe文件,安装模式选择在线安装,其他一切默认就好,选择安装内容时,因为nutch在网上爬数据的时候需要用到网络,所以选择cygwin的安装内容时,将net模块全选就行了。

五、安装Nutch-1.9

下载apache-nutch-1.9-bin.tar.gz,解压到C:\cygwin64\home中(我将cygwin64直接装到了C盘下),随便改个名字,不改也行,我这里改为nutch-1.9。在C:\cygwin64\home\nutch-1.9下,新建一个文件夹,名为urls,进入C:\cygwin64\home\nutch-1.9\urls,新建一个txt文件,名为urls.txt,这个里面放的是想要用Nutch爬取的网址,每个网址后面都要'/'分隔开,例如

https://www.csdn.net/
http://study.163.com/

进入C:\cygwin64\home\nutch-1.9\conf目录,找到其中的nutch-site.xml,打开,将其中内容更改为

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
  <name>plugin.includes</name>
  <value>protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-jsoup</value>
</property>
<property>
  <name>http.agent.name</name>
  <value>My Nutch Spider</value>
</property>
</configuration>

其中plugin.includes下面的value指明了,爬去网页内容时,https的网址也要爬取。而http.agent.name的value指明了nutch爬虫向目标网站表明的身份。

还是在C:\cygwin64\home\nutch-1.9\conf下,找到regex-urlfilter.txt,这是爬虫的过滤规则的文件,

找到里面的

# skip URLs containing certain characters as probable queries, etc.

将下面那一行的内容改为-[~],目的是在爬去页时,将其中的动态链接也提取出来,使得爬的东西更全面。

找到最后两行

# accept anything else
+.

改为

# accept anything else
#+.
+^http://([a-z0-9]*\.)*
+^https://([a-z0-9]*\.)*
学过正则表达式的都知道,上面两行直接包括了所有url,也就是说,只要是爬虫找到url,照单全收

六、安装solr4.6.1

下载solr-4.6.1.tgz,解压至C:\cygwin64\home,打开cygwin64的终端,在windows10的菜单中一找就有,在终端中进入solr-4.6.1/example,运行命令

java -jar start.jar

用浏览器打开

http://localhost:8983/solr/#/

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值