爬虫
林老师带你学编程
www.wolzq.com
展开
-
如何用java中的webmagic爬取网页
说到爬虫,大家第一个想到的肯定是python的scrapyd爬虫。但是大家不知道吧,我们的java也有相应的爬虫工具。今天就给大家介绍一下我们java的爬虫工具。 我们今天要介绍的爬虫工具,名字叫做webmagic,webmagic的架构图如下所示: 如图所示,它主要分为四个部分: Downloader(页面下载) PageProcessor(页面分析及链接抽取) Scheduler...原创 2019-12-20 21:16:09 · 599 阅读 · 0 评论 -
利用Jsoup扒取百度图片
因为业务的需求,需要去百度图片搜索中搜索相应的图片,但是得批量完成,因为人工搜索图片效率太低,所以只能通过扒取网页的形式,扒取图片。然后将图片存储在本地的文件下面。 下面我将用Jsoup来扒取百度图片,并通过java中io保存在本地文件中。 步骤大致可以分为三个模块:一是获取网页的资源,二是解析获取的资源,取出我们想要的图片URL地址,三是通过java的io存储在本地文件中。 获取网页资源的原创 2017-11-29 22:09:02 · 1599 阅读 · 0 评论