Java爬虫（一）-- 前言

最新推荐文章于 2024-04-30 09:35:31 发布

Richard_Yi

最新推荐文章于 2024-04-30 09:35:31 发布

阅读量1k

点赞数 2

分类专栏： Java 爬虫文章标签： java 爬虫

本文链接：https://blog.csdn.net/coqcnbkggnscf062/article/details/79412542

版权

Java 爬虫专栏收录该内容

8 篇文章 7 订阅

订阅专栏

开发背景

本人算是程序小白的阶段，目前大四，刚进公司实习，被分配了一个使用爬虫技术多账号轮流登录抓取某个险企网站保单数据的需求，之前没有怎么接触过，组里的人之前也没有开发过爬虫的，一路走来，都是自己通过网络进行学习，差不多3个星期，才解决了这个需求。

这一段时间，我对爬虫也是有了一定的理解，对http网络协议、ssl证书等也学习了很多，特以此系列文章作为记录。整个系列文章的顺序，也大致会按照我整个开发过程摸索的顺序来写。

爬虫

接到这个需求，对爬虫技术几乎没什么了解的我，第一个想法先是去了解一下爬虫的原理和实现方式。

爬虫是什么？

爬虫的英文叫spider/crawler，形象点就是在你开发的程序在互联网这张大网按照你设定的规则、路径去爬行，抓取你想要的数据。

万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多时候，无论出于数据分析或产品需求，我们需要从某些网站，提取出我们感兴趣、有价值的内容，但是纵然是进化到21世纪的人类，依然只有两只手，一双眼，不可能去每一个网页去点去看，然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序，这就是爬虫。

原理

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；所以一个完整的爬虫一般会包含如下三个模块：