建议先去看看API文档。
先上一段代码,然后在慢慢分析。
public class Test {
public static void main(String args[]) throws Exception {
Document doc = Jsoup.connect("http://www.cjmsa.gov.cn/9/368/2/39/62/").get();// 解析该网页,获取html文本内容
Elements alltitle = doc.select("div.lie>ul>li");// 获取这个html页面中类型为lie的div下的ul下的li,跟css的选择器一样
for (Element data : alltitle) { // 遍历多个li标签
String url = data.select("a").attr("href");// 获取li中a标签的href属性值(超链接)
String time=data.select("span").text();//获取时间
Document doc1 = Jsoup.connect("http://www.cjmsa.gov.cn" + url).get();// 因为文章内容不在不在doc中,所以通过获取到的url再次解析()
Elements p = doc1.select("font#artibody>p");// <font id="artibody">这就是获取的内容<p></p></font>
String content=p.text();
System.out.println("网页路径为:"+url+"内容:"+content+"时间:"+time);
}
}
}
1.获取标签信息常用的几个方法
select 它的用法跟css选择器的用法一样,这也是Jsoup 的强大之处(可看第4行代码)
getElementsByClass 根据标签class的值进行解析。
getElementById 根据标签的id的值进行解析
2.select什么时候用
当我们需要爬取的内容没有class 和id 时,只有一个标签,我们就需要通过select 来获取他的内容
3.text(),html(),attr()
这几个是比较常用的,很实用的属性,首先text是获取该对象的文本信息,
html是获取该对象下面所有的html信息(包括文本,有时候有奇效,例如table, 我可以将table直接显示到自己的网页,还不需要自己写样式 )
attr()是获取改对象标签中某属性的值
以上的方法可以解决爬取数据的大部分问题