jsop 解析html模板,jsop解析获得htmldome

最新推荐文章于 2022-11-02 18:15:00 发布

蓝洱

最新推荐文章于 2022-11-02 18:15:00 发布

阅读量233

点赞数

文章标签： jsop 解析html模板

该博客演示了如何使用Jsoup库从Apache HttpClient获取网页内容，并解析HTML以提取网页标题和特定ID元素的文本。示例代码展示了基本的网络爬虫技术，包括HTTP GET请求和HTML解析。

摘要由CSDN通过智能技术生成

package com.open1111.jsoup;

import org.apache.http.HttpEntity;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class Demo01 {//jsopdemo

public static void main(String[] args) throws Exception{

CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpClient实例

HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpGet实例

CloseableHttpResponse response = httpclient.execute(httpget); // 创建httpresponse实例并用来就收httpClient实例执行get请求返回值

HttpEntity entity=response.getEntity(); // 从response中获得实体类

String content=EntityUtils.toString(entity, "utf-8");//entity转换成字符串

response.close(); // 关闭流和释放系统资源

Document doc=Jsoup.parse(content); // 解析网页得到文档对象

Elements elements=doc.getElementsByTag("title"); // 获取tag是title的所有DOM元素

Element element=elements.get(0); // 获取第1个元素

String title=element.text(); // 返回元素的文本

System.out.println("网页标题是："+title);

Element element2=doc.getElementById("site_nav_top"); // 获取id=site_nav_top的DOM元素

String navTop=element2.text(); // 返回元素的文本

System.out.println("口号："+navTop);

}

}

原文：http://www.cnblogs.com/csy666/p/6414642.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。