[Java爬虫_页面Jsoup解析Demo1]

项目托管平台: 码云地址:https://gitee.com/HDMBS/JavaSpiderDemo.git

本DemoMaven_Jar
<!-- HttpClient支持 -->
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.3</version>
</dependency>

<!--Jsoup支持 -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
public static void main(String[] args) throws IOException {
    // 用httpClient获取网页(如果传入代理IP则用代理IP,不传则用当前IP)
    SpiderFruit pageContent = downloadss.getPageContent("https://www.cnblogs.com/");

    // 用Jsoup将网页解析为文档对象
    Document doc = Jsoup.parse(pageContent.getEntitystr());
    System.out.println("--------------------");

     //1.获取任意标签返回多个元素
    /* 
     * [获取HTML标签是title的所有元素]Demo1 获取文章
     * https://zhuanlan.zhihu.com/p/30974799 
     * Elements h2s = doc.getElementsByTag("h2");
     *  // 根据HTML_Tag名称来获得多个标签字段; 
     *  Elements blockquotes =doc.getElementsByTag("blockquote"); 
     * for (int i = 0; i < h2s.size(); i++) {
     *    //获取索引上的元素并以文本展示
     *    System.out.println(h2s.get(i).text());
     *    System.out.println(blockquotes.get(i).text());
     *    System.out.println(); 
     * 
     * }
     *
     */

    //2.使用标签ID获取元素获得单个元素
    /*
     * 
        String elementById = doc.getElementById("shicineirong").text();
        System.out.println(elementById);
     */


    //3.使用标签Class获取元素
    /* 
     * //如果是用文本显示:则标签获取匹配的第一个Class所有元素并以文本展示
    //如果是用Html显示:则符合的标签全部显示
     String text = doc.getElementsByClass("post_item").text();
     System.out.println(text);
    */

    }
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值