首先,先下载jsoup的jar包,这个自己去网上搜一下吧,好多的,然后导入到程序中,方便使用。
下来,先得到你要获取的网页的内容,Document doc = Jsoup.connect(url).timeout(5000).get();
这里面的url就是你要爬取的网址,timeout(5000)设置了你爬取网页的最大时间,超出时间后就不再尝试了,一般网站不用设置的,只需要Document doc = Jsoup.connect(url).get();就可以获取该网页的内容,转为文档格式。
接下来,就是寻找你要获取的数据,这里主要讲网页中表格的数据如何获取,其他的类似。
你要明白你所要获取网页的html标签的结构,按F12进入开发者模式,寻找你所要获取的数据信息。
如果网页上只有一个表格,那就简单了:Elements elements1 = doc.select("table").select("tr");这一行代码就获得了网页上的表格中的行,返回的elements是该表格有多少行,如果是多个表格,那么select()中的是该表格的标签,如它的class等属性,以确定你选择的是哪一个表格。
fo