Nutch-1.9+solr4.6.1+tomcat8.5.29搭建一个搜索引擎(windows10)

最新推荐文章于 2018-08-18 21:10:41 发布

qq_34229391

最新推荐文章于 2018-08-18 21:10:41 发布

阅读量546

点赞数

文章标签： nutch solr tomcat 搜索引擎

本文链接：https://blog.csdn.net/qq_34229391/article/details/79922127

版权

一、需要的工具(尽量使用下面这些版本的软件，否则的话，不知道会出现什么问题)

tomcat8.5.29(选择压缩包吧，比较方便)：tomcat8.5.29

apache-nutch-1.9-bin.tar.gz：nutch-1.9

solr-4.6.1.tgz：solr4.6.1

eclipse：eclipse

IK-Analyzer-2012FF：IK-Analyzer-2012FF

hadoop-core-1.2.1.jar(用来解决Failed to set permissions of path:\tmp\... to 0700问题)：hadoop-core-1.2.1.jar

二、安装jdk

网上教程一大堆，我装的是jdk1.8.0_162，记得配置环境变量。

三、安装tomcat8.5.29

下载tomcat8.5.29.zip，随便解压到哪，不过父目录中最好不要有中文，我直接解压到了C盘，解压完成后，进入C:\apache-tomcat-8.5.29\bin，双击start.bat，在浏览器中输入localhost:8080，就会出现apach的欢迎界面，如果报错，那可能是因为解压的问题，一般来说，都不会出现什么例外状况。

四、安装cygwin64

因为nutch和solr适合在linux下运行，所以想要在windows中使用它们，就得装一个叫做cygwin的软件，我装的是64位的，在网上下载cygwin64的exe文件，安装模式选择在线安装，其他一切默认就好，选择安装内容时，因为nutch在网上爬数据的时候需要用到网络，所以选择cygwin的安装内容时，将net模块全选就行了。

五、安装Nutch-1.9

下载apache-nutch-1.9-bin.tar.gz，解压到C:\cygwin64\home中(我将cygwin64直接装到了C盘下)，随便改个名字，不改也行，我这里改为nutch-1.9。在C:\cygwin64\home\nutch-1.9下，新建一个文件夹，名为urls，进入C:\cygwin64\home\nutch-1.9\urls，新建一个txt文件，名为urls.txt，这个里面放的是想要用Nutch爬取的网址，每个网址后面都要'/'分隔开，例如

https://www.csdn.net/
http://study.163.com/

进入C:\cygwin64\home\nutch-1.9\conf目录，找到其中的nutch-site.xml，打开，将其中内容更改为

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
  <name>plugin.includes</name>
  <value>protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-jsoup</value>
</property>
<property>
  <name>http.agent.name</name>
  <value>My Nutch Spider</value>
</property>
</configuration>

其中plugin.includes下面的value指明了，爬去网页内容时，https的网址也要爬取。而http.agent.name的value指明了nutch爬虫向目标网站表明的身份。

还是在C:\cygwin64\home\nutch-1.9\conf下，找到regex-urlfilter.txt，这是爬虫的过滤规则的文件，

找到里面的

# skip URLs containing certain characters as probable queries, etc.

将下面那一行的内容改为-[~]，目的是在爬去页时，将其中的动态链接也提取出来，使得爬的东西更全面。

找到最后两行

# accept anything else
+.

改为

# accept anything else
#+.
+^http://([a-z0-9]*\.)*
+^https://([a-z0-9]*\.)*

学过正则表达式的都知道，上面两行直接包括了所有url，也就是说，只要是爬虫找到url，照单全收

六、安装solr4.6.1

下载solr-4.6.1.tgz，解压至C:\cygwin64\home，打开cygwin64的终端，在windows10的菜单中一找就有，在终端中进入solr-4.6.1/example，运行命令

java -jar start.jar

用浏览器打开

http://localhost:8983/solr/#/

最低0.47元/天解锁文章

qq_34229391

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Nutch-1.9+solr4.6.1+tomcat8.5.29搭建一个搜索引擎(windows10)

一、需要的工具(尽量使用下面这些版本的软件，否则的话，不知道会出现什么问题)tomcat8.5.29(选择压缩包吧，比较方便)：tomcat8.5.29apache-nutch-1.9-bin.tar.gz：nutch-1.9solr-4.6.1.tgz：solr4.6.1eclipse：eclipseIK-Analyzer-2012FF：IK-Analyzer-2012FFhadoop-core...
复制链接

扫一扫