一、需要的工具(尽量使用下面这些版本的软件,否则的话,不知道会出现什么问题)
tomcat8.5.29(选择压缩包吧,比较方便):tomcat8.5.29
apache-nutch-1.9-bin.tar.gz:nutch-1.9
solr-4.6.1.tgz:solr4.6.1
eclipse:eclipse
IK-Analyzer-2012FF:IK-Analyzer-2012FF
hadoop-core-1.2.1.jar(用来解决Failed to set permissions of path:\tmp\... to 0700问题):hadoop-core-1.2.1.jar
二、安装jdk
网上教程一大堆,我装的是jdk1.8.0_162,记得配置环境变量。
三、安装tomcat8.5.29
下载tomcat8.5.29.zip,随便解压到哪,不过父目录中最好不要有中文,我直接解压到了C盘,解压完成后,进入C:\apache-tomcat-8.5.29\bin,双击start.bat,在浏览器中输入localhost:8080,就会出现apach的欢迎界面,如果报错,那可能是因为解压的问题,一般来说,都不会出现什么例外状况。
四、安装cygwin64
因为nutch和solr适合在linux下运行,所以想要在windows中使用它们,就得装一个叫做cygwin的软件,我装的是64位的,在网上下载cygwin64的exe文件,安装模式选择在线安装,其他一切默认就好,选择安装内容时,因为nutch在网上爬数据的时候需要用到网络,所以选择cygwin的安装内容时,将net模块全选就行了。
五、安装Nutch-1.9
下载apache-nutch-1.9-bin.tar.gz,解压到C:\cygwin64\home中(我将cygwin64直接装到了C盘下),随便改个名字,不改也行,我这里改为nutch-1.9。在C:\cygwin64\home\nutch-1.9下,新建一个文件夹,名为urls,进入C:\cygwin64\home\nutch-1.9\urls,新建一个txt文件,名为urls.txt,这个里面放的是想要用Nutch爬取的网址,每个网址后面都要'/'分隔开,例如
https://www.csdn.net/
http://study.163.com/
进入C:\cygwin64\home\nutch-1.9\conf目录,找到其中的nutch-site.xml,打开,将其中内容更改为
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-jsoup</value>
</property>
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
</configuration>
其中plugin.includes下面的value指明了,爬去网页内容时,https的网址也要爬取。而http.agent.name的value指明了nutch爬虫向目标网站表明的身份。
还是在C:\cygwin64\home\nutch-1.9\conf下,找到regex-urlfilter.txt,这是爬虫的过滤规则的文件,
找到里面的
# skip URLs containing certain characters as probable queries, etc.
将下面那一行的内容改为-[~],目的是在爬去页时,将其中的动态链接也提取出来,使得爬的东西更全面。
找到最后两行
# accept anything else
+.
改为
# accept anything else
#+.
+^http://([a-z0-9]*\.)*
+^https://([a-z0-9]*\.)*
学过正则表达式的都知道,上面两行直接包括了所有url,也就是说,只要是爬虫找到url,照单全收
六、安装solr4.6.1
下载solr-4.6.1.tgz,解压至C:\cygwin64\home,打开cygwin64的终端,在windows10的菜单中一找就有,在终端中进入solr-4.6.1/example,运行命令
java -jar start.jar
用浏览器打开
http://localhost:8983/solr/#/