python爬虫与java爬虫_java爬虫框架webmagic学习（一）

最新推荐文章于 2023-03-09 17:36:02 发布

weixin_39789370

最新推荐文章于 2023-03-09 17:36:02 发布

阅读量158

点赞数

文章标签： python爬虫与java爬虫

1. 爬虫的分类：分布式和单机

分布式主要就是apache的nutch框架，java实现，依赖hadoop运行，学习难度高，一般只用来做搜索引擎开发。

java单机的框架有：webmagic和webcollector以及crawler4j

python单机的框架：scrapy和pyspider

2. 作者自己在官方教程也说到了“WebMagic的设计参考了业界最优秀的爬虫Scrapy”，说明精通scrapy还是爬虫工程师最重要的任务。

3. WebMagic的代码分为两部分：webmagic-core和webmagic-extension

4. WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成。Spider是内部流程的核心，四大组件都是它的属性。

Spider也是WebMagic操作的入口，它封装了爬虫的创建、启动、停止、多线程等功能。

5. public static void main(String[] args){

Spider.create(new GithubRepoPageProcessor()) //从https://github.com/code4craft开始抓

.addUrl("https://github.com/code4craft") //设置Scheduler，使用Redis来管理URL队列

.setScheduler(new RedisScheduler("localhost")) //设置Pipeline，将结果以json方式保存到文件

.addPipeline(new JsonFilePipeline("D:\\data\\webmagic")) //开启5个线程同时执行 .thread(5) //启动爬虫

.run();

}

6. webmagic-selenium支持动态网页的爬取，webmagic-saxon支持X-Path和XSLT的解析。

原文地址：https://www.cnblogs.com/jdbc2nju/p/9309172.html

weixin_39789370

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫与java爬虫_java爬虫框架webmagic学习（一）

1. 爬虫的分类：分布式和单机分布式主要就是apache的nutch框架，java实现，依赖hadoop运行，学习难度高，一般只用来做搜索引擎开发。java单机的框架有：webmagic和webcollector以及crawler4jpython单机的框架：scrapy和pyspider2. 作者自己在官方教程也说到了“WebMagic的设计参考了业界最优秀的爬虫Scrapy”，说明精通scrap...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。