首先建立一个java 工程。
选择从源代码中创建工程。选择nutch的解压目录。选择jre需要1.6本版的。
点击finish。
conf文件夹会自动被build path,如果没有手动加入一下。
在工程根目录下添加一个urls文件夹,再建立个url.text文件。
将需要的网址填入。
修改conf里的crawl-urlfilter.txt,用正则表示搜索的范围。
修改conf里的nutch-site.xml
根目录建立一个存储结果的文件夹,这里是crawl
现在就可以执行程序了,打开运行的对话框
选择crawl为主执行程序。
添加运行参数
-urls 就是刚才我们创建的url文件,存放我们要抓取的网址
-dir 指定抓取内容所存放的目录,如上存在crawl中
-threads 指定并发的线程数
-depth 表示以要抓取网站顶级网址为起点的爬行深度
-topN 表示获取前多少条记录,可省
注意如果内存不够用需要重新设置一下。
ok了开始run吧。
让我们测试下。Arguments 填写需要搜索的词。
查找结果。
![](https://i-blog.csdnimg.cn/blog_migrate/b236386bebcd3829a54fa9c5c4387c10.jpeg)