Java实现爬虫

最新推荐文章于 2024-07-04 16:04:39 发布

晨光不熹微

最新推荐文章于 2024-07-04 16:04:39 发布

阅读量1.7k

点赞数 1

分类专栏：爬虫文章标签：爬虫 java爬虫

本文链接：https://blog.csdn.net/weixin_42506093/article/details/85992910

版权

本文介绍了使用Java实现爬虫的方法，包括HttpClient基础爬取、Jsoup解析HTML以及WebMagic爬虫框架的应用。详细阐述了WebMagic的四大组件：Downloader、PageProcessor、Scheduler和Pipeline，并讨论了爬虫的配置、启动和终止。同时，对网络爬虫的分类进行了简要说明，如通用、聚焦、增量和深层网络爬虫。最后，探讨了数据去重的策略，如HashSet、Redis和布隆过滤器。

摘要由CSDN通过智能技术生成

爬虫(crawler):是一种按照一定的规则，自动抓取万维网信息的程序或者脚本

HttpClient方式

以get请求方式进行举例:
引入jar包:httpclient

  @Test
    public void test() throws Exception{
        // 创建HttpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        // 创建网络请求对象
        HttpGet httpGet = new HttpGet("http://www.oschina.net/");
        // 执行爬取,并且获得结果
        CloseableHttpResponse httpResponse = httpClient.execute(httpGet);
        // 处理爬取结果
        if (httpResponse.getStatusLine().getStatusCode()==200){
            // 响应状态为200,处理爬取结果
            HttpEntity entity = httpResponse.getEntity();
            // 结果转化
            String toString = EntityUtils.toString(entity, "utf-8");
            System.out.println(toString);
        }
        // 关闭相关资源
        httpResponse.close();
        httpClient.close();
    }

Jsoup方式

引入jar包:jsoup -->commons-lang3+commons-io (工具包)
这是一款专门解析 html 页面的技术,所以有个硬性技能,就是要求会使用jquery\Selector选择器,否则标签你都选不对,更何况爬?
列举常用的规则:

tagname: 通过标签查找元素，比如：span
#id: 通过 ID 查找元素，比如：# city_1
.class: 通过 class 名称查找元素，比如：.class_a
[attribute]: 利用属性查找元素，比如：[abc]
[attr=value]: 利用属性值来查找元素，比如：[class=s_name]

列举几个复杂的组合选择: