![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nutch
文章平均质量分 66
FruitHardCandy
这个作者很懒,什么都没留下…
展开
-
在Windows环境下安装和配置Nutch 0.9
一、运行环境: 1. 操作系统:Windows XP 2. Java 1.6 ,设置JAVA_HOME 等环境变量 鼠标右键单击我的电脑→属性→高级→环境变量,如下图示: 1) 单击系统变量列表框下面的新建按钮,新建java_home 环境变量。 2) ...原创 2012-02-23 12:19:10 · 155 阅读 · 0 评论 -
谁能帮助我解决Nutch1.4找不到crawl类的问题!
最近在自己用cygwin搞nutch.版本是1.4的,是因为找稳定的1.2找不到(不但官网找不到,各种百度各种谷歌都失败) 可是每当运行crawl命令- bin/nutch crawl urls -dir mydir -depth 3 -topN 5命令后,就说找不到crawl类,我已经把crawl的jar包放在了jdk/lib和nutch/lib下了,还是找不到,弄了一天了,着...2012-02-23 16:35:56 · 163 阅读 · 0 评论 -
终于解决了Nutch1.4报错找不到crawl类的问题
之前发表了一篇博客,是nutch在crawl的时候无论如何都找不到crawl类,今天解决了。之前的环境是cygwin模拟的linux环境,我以为是cygwin的问题,所以干脆装了一个linux虚拟机来跑nutch,依然找不到crawl类,所以我怀疑cygwin的环境下出现的这个问题也应该用以下解决办法。 问题解决的重要办法 :读源码 - 读 nutch1.4/src/bin/...2012-03-01 17:21:05 · 210 阅读 · 0 评论 -
access_log查看方法
1 access_log.1 昨天一天的点击量(clicks); ACCESS_LOG.1 [httpd@test log]$ cat access_log.1|grep '12/Aug/2009'|grep "******.jsp"|wc|awk '{print $1}'|uniq 17439 2 昨天访问网站的独立IP有多少; ACCESS_LOG.1 [httpd@test lo...原创 2012-03-20 09:17:02 · 1206 阅读 · 0 评论 -
设置apache日志记录蜘蛛爬行 转自百度HI
apache日志为什么不记录百度蜘蛛?这个问题相信很多初学者都基本碰到了,apache日志默认是不记录百度蜘蛛、谷歌和各大搜索引擎的蜘蛛程序的,但只需要修改一个地方就可以解决这个问题,现在就直接将答案写出来: 比如曾经有个朋友在百度知道中提问:<IfModule log_config_module> LogFormat “%h %l %u %t \”%r\” %>s %b \...原创 2012-03-20 09:59:24 · 194 阅读 · 0 评论