eclipse配置nutch1.1

最新推荐文章于 2024-07-12 16:42:46 发布

起个马甲好困难

最新推荐文章于 2024-07-12 16:42:46 发布

阅读量305

点赞数

分类专栏：搜索引擎文章标签：爬虫搜索引擎

搜索引擎专栏收录该内容

17 篇文章 0 订阅

订阅专栏

首先建立一个java 工程。

选择从源代码中创建工程。选择nutch的解压目录。选择jre需要1.6本版的。

点击finish。

conf文件夹会自动被build path，如果没有手动加入一下。

在工程根目录下添加一个urls文件夹，再建立个url.text文件。

将需要的网址填入。

修改conf里的crawl-urlfilter.txt，用正则表示搜索的范围。

修改conf里的nutch-site.xml

根目录建立一个存储结果的文件夹，这里是crawl

现在就可以执行程序了，打开运行的对话框

选择crawl为主执行程序。

添加运行参数

-urls 就是刚才我们创建的url文件,存放我们要抓取的网址

-dir 指定抓取内容所存放的目录，如上存在crawl中

-threads 指定并发的线程数

-depth 表示以要抓取网站顶级网址为起点的爬行深度

-topN 表示获取前多少条记录，可省

注意如果内存不够用需要重新设置一下。

ok了开始run吧。

让我们测试下。Arguments 填写需要搜索的词。

查找结果。

起个马甲好困难

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
eclipse配置nutch1.1

首先建立一个java 工程。选择从源代码中创建工程。选择nutch的解压目录。选择jre需要1.6本版的。点击finish。conf文件夹会自动被build path，如果没有手动加入一下。在工程根目录下添加一个urls文件夹，再建立个url.text文件。将需要的网址填入。修改conf里的crawl-urlf
复制链接

扫一扫

专栏目录

起个马甲好困难 CSDN认证博客专家 CSDN认证企业博客

码龄16年

14: 原创

10万+: 周排名

132万+: 总排名

23万+: 访问

: 等级

2906: 积分

28: 粉丝

50: 获赞

25: 评论

134: 收藏

私信

关注

热门文章

分类专栏

职场 3篇
nosql
Nginx 3篇
java框架 29篇
oracle 10篇
MS SQL Server 2篇
mysql 3篇
SOA 4篇
数据库 7篇
ejb3.0 4篇
Web服务器 12篇
.NET 8篇
开发工具 8篇
RIA 24篇
搜索引擎 17篇
Java 25篇
jsp 7篇
Linux 17篇
信息技术基础 13篇
大型网站 3篇
软件工程 5篇
软件开发大杂烩 1篇
jersey
maven 2篇
Solr 1篇
SSO 2篇
机器学习 2篇
devops 2篇
MQ 1篇
缓存 5篇

最新评论

定点数（纯整数/纯小数）补码
做而论道_CS: 无论正数负数零，求其补码只有一个公式：　某数的补码＝ 2^n ＋该数。　n 是补码的位数。老外的的算术水平太洼了。　什么是进位，他们不懂。所以，才用 “机器数真值符号位...”，来求补码。
定点数（纯整数/纯小数）补码
做而论道_CS: 零和正数的补码，也可用同样的公式：　正数的补码 = 256 + 该正数。加上 256，就会出现进位。把进位舍弃，就是：　正数的补码 = 该正数。这就证明了：　零和正数的补码，就是其本身。例如：＋50 的补码是什么？求解：你自己算吧。
定点数（纯整数/纯小数）补码
做而论道_CS: 已知，255 (1111 1111)，能当－1；同理，254 (1111 1110)，就能当－2；还有，253 (1111 1101)，就能当－3；。。。以上这些正数，就是所谓的 “补码”。你一定能看出，正数、负数的关于式：　负数的补码 = 256 + 该负数。例如：－50 的补码是什么？求解：　　　256 ＋ (－50) = 206，　　　206 = 1100 1110 (二进制)。这就求出来了。那么，所谓的：　机器数真值符号位原码反码补码正数三码相同　负数取反加一符号位不变模符号位也参加运算 ,,, 都是毫无用处的垃圾！
定点数（纯整数/纯小数）补码
做而论道_CS: +99、+255，都能当做－1，并不是因为有什么 “符号位” ！而是在计算时，舍弃了进位。 +99、+255，都是数字。也不是什么什么码！
定点数（纯整数/纯小数）补码
做而论道_CS: 计算机，使用二进制数。八位的范围是：0000 0000 ~ 1111 1111。相当于十进制：0 ~ 255。这里的 255 (即 1111 1111)，就能当做－1 使用。你用二进制算一下，你就能证明出来。你只要舍弃进位，就一定能证出来。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。