java爬虫简单小案例

最新推荐文章于 2024-07-30 10:53:26 发布

supuerlovepc

最新推荐文章于 2024-07-30 10:53:26 发布

阅读量909

点赞数

分类专栏： java开发-有趣小工具文章标签：爬虫 java http

本文链接：https://blog.csdn.net/supuerlovepc/article/details/124923801

版权

java开发-有趣小工具专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、HttpClients + jsoup java爬虫简单小案例

用到的内容：

HttpClients + jsoup

pom依赖：

<dependency>
 <groupId>org.apache.httpcomponents</groupId>
 <artifactId>httpclient</artifactId>
 <version>4.5.13</version>
 </dependency>

 <dependency>
 <groupId>org.jsoup</groupId>
 <artifactId>jsoup</artifactId>
 <version>1.12.1</version>
 </dependency>

代码：

package com.pcf.spdemo.common.commonutils.httpclient;

import org.apache.http.HttpEntity;
import org.apache.http.HttpHost;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.HttpClientUtils;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;

public class SpHttpClientUtils {
    private static Logger log = LoggerFactory.getLogger(SpHttpClientUtils.class);

    private static String WEB_PAGE_URL = "https://www.cnblogs.com/";

    private int totalPage = 1;

    // 爬虫方法，获取网页信息
    public void getHttpPageInfo(String htmlUrl) {
        //1.生成httpclient，相当于该打开一个浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        //2.创建get请求，相当于在浏览器地址栏输入 网址
        HttpGet request = new HttpGet(htmlUrl);
        // 伪装成浏览器，可以绕过简单的反爬虫
        request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36");
        // 使用代理IP，防止一个IP一直访问，被网站识别
        HttpHost proxy = new HttpHost("120.42.46.226", 6666);
        RequestConfig config = RequestConfig.custom().setProxy(proxy).build();
        request.setConfig(config);
        try {
            //3.执行get请求，相当于在输入地址栏后敲回车键
            response = httpClient.execute(request);
            //4.判断响应状态为200，进行处理
            if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
                //5.获取响应内容
                HttpEntity httpEntity = response.getEntity();
                String html = EntityUtils.toString(httpEntity, "utf-8");
//                log.info("开始 获取网址html信息=======================================================================");
//                log.info(html);
//                log.info("结束 获取网址html信息=======================================================================");
                // 解析html
                log.info("开始 解析第[" + totalPage + "]页html信息=======================================================================");
                String nextPageSuffix = parseWebPage(html);
                log.info("结束 解析第[" + totalPage + "]页html信息=======================================================================");
                totalPage++;
                // 此处是在网站上观察到只有200页跳转，所以就设置了200次，递归调用。也可以用多线程提高效率。
                if (totalPage <= 200) {
                    getHttpPageInfo(WEB_PAGE_URL + nextPageSuffix);
                }
            } else {
                //如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略
                log.error("返回状态不是200");
                log.error("EntityUtils.toString(response.getEntity(), \"utf-8\")" + EntityUtils.toString(response.getEntity(), "utf-8"));
            }
        } catch (ClientProtocolException e) {
            e.printStackTrace();
            log.error("[" + WEB_PAGE_URL + "] 网址爬取时出现ClientProtocolException异常：" + e.getMessage());
        } catch (IOException e) {
            e.printStackTrace();
            log.error("[" + WEB_PAGE_URL + "] 网址爬取时出现IOException异常：" + e.getMessage());
        } finally {
            //6.关闭
            HttpClientUtils.closeQuietly(response);
            HttpClientUtils.closeQuietly(httpClient);
        }
    }

    /**
     * Jsoup解析
     */
    public String parseWebPage(String html) {
        // 解析html字符串
        Document document = Jsoup.parse(html);
        // 主要用到CSS选择器知识
        // 找到html中文章list所在位置，选中它。此处用id选择器
        Element postList = document.getElementById("post_list");
        // 找到list下所有文章，此处用类选择器
        Elements postItems = postList.getElementsByClass("post-item");
        // 循环处理每一个文章
        for (Element postItem : postItems) {
            Elements titleEle = postItem.select(".post-item-title");
            System.out.println("文章标题:" + titleEle.text());
            System.out.println("文章地址:" + titleEle.attr("href"));
            // 组合选择器，父类选择器>子类选择器
            Elements footEle = postItem.select(".post-item-foot>.post-item-author");
            System.out.println("文章作者:" + footEle.text());
            System.out.println("作者主页:" + footEle.attr("href"));
            System.out.println("*********************************");
        }
        // 找到页面上“下一页”的元素，找出其中跳转的参数，递归调用解析所有页的信息
        Element paging_block = document.getElementById("paging_block");
        Elements pageNum = paging_block.select(".pager a:last-child");
        String nextPage = pageNum.attr("href");
        System.out.println(nextPage);
        return nextPage;
    }
}

NOTE：

简单的爬虫小体验没什么难度，代码复制上去，网站一换就能捕捉到html页面信息了。

1、主要是要获取到自己想要的内容，得稍微地学一下CSS选择器，尤其是各种组合选择器，能让你更快捷找到自己想要爬取的元素，大幅度降低代码量。

2、获取代理IP的方法
百度一搜一大堆。我也是随便搜了一个： https://www.zdaye.com/dayProxy/ip/333314/2.html

效果：

二、爬虫提醒：

现在各大网站好多都有反爬虫，有些内容是禁止爬取的，如果爬到了可能就会有一些麻烦。所以在练习之前最好查一下。我爬的是博客园，信息都让爬，没有禁止内容。

查询方法：网址+/robots.txt

如：www.baidu.com/robots.txt 点开你会看到以下内容

Disallow后面就是禁止爬取的目录。

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

如：https://www.cnblogs.com/robots.txt

没有禁止目录

User-Agent: *
Allow: /</pre>

robots协议的内容规范

robots协议的内容规范
User-agent: 表明爬虫名字
Disallow: 表示禁止爬取的页面
Allow: 表示允许爬取的页面
Sitemap: 表示网站地图
*: 表示任意长度的任意字符
$: 表示结尾
/: 表示这级文件夹下的所有文件
可以发现，这和这正则表达式有点相似，不过，?和.没有特别的含义，/也不需要转义
有关页面的写法：
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图