nutch使用

nutch 1.x (nutch 1.11为例)

抓取网页存储到本地

bin/crawl  urls  crawl  2

建索引

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
nutch 2.x (nutch 2.2.1为例)
mysql

my.ini或my.cnf中修改编码:

[mysqld] character-set-server=utf8
[client]、[mysql] default-character-set=utf8

数据表字段映射在gora-sql-mapping.xml中配置。

配置ivy对mysql的支持,在ivy/ivy.xml中配置

<dependency org=”mysql” name=”mysql-connector-java” rev=”5.1.18″ conf=”*->default”/>
<dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/>
<dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

配置nutch数据连接设置gora.properties

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver

gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true

gora.sqlstore.jdbc.user=xxxx(MySQL用户名)

gora.sqlstore.jdbc.password=xxxx(MySQL密码)

修改nutch-site.xml(将nutch-default.xml另存为nutch-site.xml然后修改),设置http.agent.name、storage.data.store.class等。
并添加

<property> 
     <name>storage.data.store.class</name>
     <value>org.apache.gora.sql.store.SqlStore</value>
     <description>The Gora DataStore class for storing and retrieving data.
             Currently the following stores are available:.
     </description>
    </property>
<property>
    <name>generate.batch.id</name>
    <value>*</value>
</property

然后设置爬取网站。

执行爬取操作,爬取数据到数据库

bin/nutch crawl urls -depth 3 -topN 5
solr
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值