java Jsoup 爬取网页数据

最新推荐文章于 2024-07-11 14:37:44 发布

陈自由

最新推荐文章于 2024-07-11 14:37:44 发布

阅读量1.4k

点赞数 1

分类专栏： java Jsoup 文章标签： java Jsoup 数据

本文链接：https://blog.csdn.net/qq_37493295/article/details/78053481

版权

java Jsoup 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

建议先去看看API文档。

先上一段代码，然后在慢慢分析。

public class Test {
	public static void main(String args[]) throws Exception  {
		Document doc = Jsoup.connect("http://www.cjmsa.gov.cn/9/368/2/39/62/").get();// 解析该网页，获取html文本内容
		Elements alltitle = doc.select("div.lie>ul>li");// 获取这个html页面中类型为lie的div下的ul下的li，跟css的选择器一样
		for (Element data : alltitle) { // 遍历多个li标签
			String url = data.select("a").attr("href");// 获取li中a标签的href属性值（超链接）
			String time=data.select("span").text();//获取时间
			Document doc1 = Jsoup.connect("http://www.cjmsa.gov.cn" + url).get();// 因为文章内容不在不在doc中，所以通过获取到的url再次解析（）
			Elements p = doc1.select("font#artibody>p");// <font id="artibody">这就是获取的内容<p></p></font>
			String content=p.text();
			System.out.println("网页路径为："+url+"内容："+content+"时间："+time);
		}
	}
}