HttpClient WebMagic爬虫

最新推荐文章于 2022-04-13 11:57:52 发布

骑着猪区见上帝

最新推荐文章于 2022-04-13 11:57:52 发布

阅读量430

点赞数

本文链接：https://blog.csdn.net/qq_40959641/article/details/104381686

版权

1.导入maven依赖

<dependencies>
    <!-- HttpClient -->
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.3</version>
    </dependency>

    <!-- 日志 -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>1.7.25</version>
    </dependency>
</dependencies>

2.log4j.properties

log4j.rootLogger=DEBUG,A1
log4j.logger.cn.itcast = DEBUG

log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n

个人案例:github地址

webMagic:

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件，并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy，但是实现方式更Java化一些。

而Spider则将这几个组件组织起来，让它们可以互相交互，流程化的执行，可以认为Spider是一个大的容器，它也是WebMagic逻辑的核心。

在这里插入图片描述
四大组件:
1.Downloader
Downloader负责从互联网上下载页面，以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。

2.PageProcessor
PageProcessor负责解析页面，抽取有用信息，以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。

在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。

3.Scheduler
Scheduler负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。

4.Pipeline
Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。

Pipeline定义了结果保存的方式，如果你要保存到指定数据库，则需要编写对应的Pipeline。对于一类需求一般只需编写一个Pipeline。

入门案例:
maven依赖:

<!--WebMagic-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>

注意：0.7.3版本对SSL的并不完全，如果是直接从Maven中央仓库下载依赖，在爬取只支持SSL v1.2的网站会有SSL的异常抛出。
解决方案：
1.等作者的0.7.4的版本发布
2.直接从github上下载最新的代码，安装到本地仓库

也可以参考以下资料自己修复
https://github.com/code4craft/webmagic/issues/701

WebMagic使用slf4j-log4j12作为slf4j的实现。
添加log4j.properties配置文件

log4j.rootLogger=INFO,A1 

log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n

public class JobProcessor implements PageProcessor {

    @Override
    public void process(Page page) {
        /*3.1.2.抽取元素API
         * xpath() : 使用xPath选择
         * css() or $  :使用css选择
         * links() ： 获取所有连接
         * regex() : 使用正则表达式抽取
         *
         * 获取结果api
         * get(): 获取一条String类型的结果
         * toString():等同于get()
         * all()抽取所有结果
         */
        //获取连接
        page.addTargetRequests(page.getHtml().links().all());
        page.putField("url",page.getHtml().all());
        //page.putField(("body"),page.getHtml().$("h1").all());
        //page.putField("div",page.getHtml().css("li").regex(".*京东.*").all());
    }

    @Override
    public Site getSite() {
        return Site.me().setCharset("UTF-8")//编码
                .setSleepTime(1)//抓取时间
                .setTimeOut(1000*10)//超时时间
                .setRetrySleepTime(3000)//重试时间
                .setRetryTimes(3);//重试次数
    }
    //主函数 ,执行爬虫
    public static void main(String[] args) {
        Spider.create(new JobProcessor()).addUrl("https://www.right.com.cn/forum/")
                .addPipeline(new FilePipeline("C:\\Users\\Administrator\\Desktop\\img"))//存储到本地
                .thread(10)//多线程
                .run();
    }
}

在这里插入图片描述

4.爬虫分类
网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的
4.1.通用网络爬虫
通用网络爬虫又称全网爬虫（Scalable Web Crawler），爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。
这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。
简单的说就是互联网上抓取所有数据。

4.2.聚焦网络爬虫
聚焦网络爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。
和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。
简单的说就是互联网上只抓取某一种数据。

4.3.增量式网络爬虫
增量式网络爬虫（Incremental Web Crawler）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。
和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。
简单的说就是互联网上只抓取刚刚更新的数据。

4.4.Deep Web 爬虫
Web 页面按存在方式可以分为表层网页（Surface Web）和深层网页（Deep Web，也称 Invisible Web Pages 或 Hidden Web）。
表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的 Web 页面。
Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。

骑着猪区见上帝

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HttpClient WebMagic爬虫

1.导入maven依赖<dependencies>  <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifact...
复制链接

扫一扫