![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
金正阳
正在人工智能的路上胡奔乱跑。
展开
-
Nutch 1.x 教程(nutch1.15 + solr7.3.1通过)
看了若干的所谓的Nutch教程,要么版本太老,要么语焉不详,要么挂一漏万,还有直接用自动翻译机翻译的简直没法读。在此将nutch1.x的wiki教程在此翻译,加深自学印象。事实上wiki文档也不是很规范,上面的遗漏的地方比较多,本文经过实际验证通过,保证能够使用。另外吐槽一下:wiki上面的1.x的nutch教程错误百出,我曹了。这也叫官方教程。原文链接:https://wiki.apac...翻译 2018-12-14 23:10:25 · 1961 阅读 · 1 评论 -
nutch+solor+elcipse安装配置
参考文档:utch搜索引擎(第4期)_ Eclipse开发配置(http://www.cnblogs.com/xia520pi/p/3695617.html)由于参考文档成文于2014年,时隔近5年过去,软件版本发生了巨大的变化,现根据新版本进行开发。另外,针对以上文件有改正,在此致谢。1、环境准备1.1、文件夹目录结构c:\soengine\ |----cygwin...原创 2019-01-09 22:28:52 · 333 阅读 · 0 评论 -
cygpath命令各参数详解
学习nutch,发现各种命令从来没见过,百度根本就搜索不出来,原来这些命令附带的参数都是自己定义的参数,而不是常规参数,因此将学习过程中遇到的各种参考资料列与此,作记。cygpath 本文转载自:cygpath - Cygwin Namecygpath — Convert Unix and Windows format paths, or output system path ...转载 2019-01-14 22:12:54 · 4558 阅读 · 0 评论 -
nutch 1.15中crawl命令解析
nutch的最新版本为1.15,在实际生产中使用的时候,发现怎么也抓取不了,网上各个版本的命令解析都他娘的不能用,一怒之下,花了26块银子买了本二手的《shell 脚本学习指南》,看了后,用编辑器打开crawl命令一看,我靠,和以前的crawl一点都不一样了,而且还有错误。注释于此,备忘。另外需说明的是,1.15版的crawl命令配置正确的可以直接抓取,不需要nutch的配合。#!/bin...翻译 2019-01-09 22:28:27 · 1194 阅读 · 0 评论