[Java爬虫_页面Jsoup解析Demo1]

最新推荐文章于 2024-05-16 09:46:44 发布

Coding兴邦

最新推荐文章于 2024-05-16 09:46:44 发布

阅读量243

点赞数

分类专栏： Java爬虫实现

本文为博主原创文章，请随意转载 !

本文链接：https://blog.csdn.net/qq_37977176/article/details/78708598

版权

Java爬虫实现专栏收录该内容

6 篇文章 0 订阅

订阅专栏

项目托管平台: 码云地址：https://gitee.com/HDMBS/JavaSpiderDemo.git

本DemoMaven_Jar
<!-- HttpClient支持 -->
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.3</version>
</dependency>

<!--Jsoup支持 -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>

public static void main(String[] args) throws IOException {
    // 用httpClient获取网页(如果传入代理IP则用代理IP,不传则用当前IP)
    SpiderFruit pageContent = downloadss.getPageContent("https://www.cnblogs.com/");

    // 用Jsoup将网页解析为文档对象
    Document doc = Jsoup.parse(pageContent.getEntitystr());
    System.out.println("--------------------");

     //1.获取任意标签返回多个元素
    /* 
     * [获取HTML标签是title的所有元素]Demo1 获取文章
     * https://zhuanlan.zhihu.com/p/30974799 
     * Elements h2s = doc.getElementsByTag("h2");
     *  // 根据HTML_Tag名称来获得多个标签字段； 
     *  Elements blockquotes =doc.getElementsByTag("blockquote"); 
     * for (int i = 0; i < h2s.size(); i++) {
     *    //获取索引上的元素并以文本展示
     *    System.out.println(h2s.get(i).text());
     *    System.out.println(blockquotes.get(i).text());
     *    System.out.println(); 
     * 
     * }
     *
     */

    //2.使用标签ID获取元素获得单个元素
    /*
     * 
        String elementById = doc.getElementById("shicineirong").text();
        System.out.println(elementById);
     */


    //3.使用标签Class获取元素
    /* 
     * //如果是用文本显示:则标签获取匹配的第一个Class所有元素并以文本展示
    //如果是用Html显示:则符合的标签全部显示
     String text = doc.getElementsByClass("post_item").text();
     System.out.println(text);
    */

    }

Coding兴邦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[Java爬虫_页面Jsoup解析Demo1]

项目托管平台: 码云地址：https://gitee.com/HDMBS/JavaSpiderDemo.git本DemoMaven_Jar<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.3<
复制链接

扫一扫