webcollector爬虫demo

最新推荐文章于 2024-09-13 22:02:36 发布

盟易

最新推荐文章于 2024-09-13 22:02:36 发布

阅读量2k

点赞数

分类专栏：爬虫学习文章标签： java 爬虫 webcollector

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012257955/article/details/52413085

版权

由于我们公司第二季度亏了7-8亿，所以项目组没有多余的资金让我们去正规渠道买数据。然后我就走向了一天爬虫的不归路。

其实Java爬虫有很多开源的框架，这边我选择的是webcollector这个中小型的框架（官网：https://github.com/CrawlScript/WebCollector，教程文档：http://datahref.com/archives/category/webcollector%E6%95%99%E7%A8%8B）

爬虫新手一只，现在我把代码贴出来，我们共同学习：

import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;
import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.net.HttpRequest;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.util.CharsetDetector;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.methods.HttpGet;
import o

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

盟易 CSDN认证博客专家 CSDN认证企业博客

码龄11年

5: 原创

32万+: 周排名

155万+: 总排名

3万+: 访问

: 等级

405: 积分

16: 粉丝

39: 获赞

8: 评论

22: 收藏

私信

关注

热门文章

分类专栏

最新评论

webcollector爬虫demo
jzdcf: Eclipse开发？用AS好像不行
接口是否可以有实现方法
BJTU_Chris_Lee: 我是看<Thinking in Java>的时候想到这个问题的233，然后就百度发现了这个
第一次FullGC优化实战
ansatsing2: 有源码吗，我也想体验一下
JAVA面试题总览--JAVA基础
qq_39963091: 第五题是错的 public class A1 { public A1(){ System.out.println("我是父类 A1构造方法"); a=2; } int a=inInt1(); int inInt1(){ System.out.println("我是父类属性"); return 1; } public static void main(String[] args) { } } public class A2 extends A1 { int b=inInt(); int inInt(){ System.out.println("我是子类属性"); return 1; } public A2(){ System.out.println("我是A2构造函数"); } } public class Test { public static void main(String[] args) { A1 a3=new A2(); } } 我是父类属性我是父类 A1构造方法我是子类属性我是A2构造函数
webcollector爬虫demo
盟易回复 Berserker_: 你把下面几个jar导进去试试

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。