网络爬虫(heritrix)

预期目的:从社交网络上挖掘出有用的信息

基本预期是采用下面文档提供的方法尝试,heritrix+html paser

http://wenku.baidu.com/view/fd31cbee5ef7ba0d4a733ba6.html

1.以前装过java sdk,重装系统后得重新安装,配置时遇到了些不明白的问题,下面的文章讲的很清楚

http://wenku.baidu.com/view/0569c21755270722192ef768.html

2.安装使用heritrix,参考下面的网址

http://wenku.baidu.com/view/4e604c1efc4ffe473368ab08.html?from=related&hasrec=1

下载后里面含有heritrix的使用手册和开发手册。应该是以使用为主。研究中……

3.比较相关的文章,人人网的网络爬虫

http://blog.csdn.net/yahohi/article/details/6114194


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值