- 用的是Jsoup,这个工具可以解析指定URL文档的内容。
- 如果是普通的工程则需要导入相应jar包,如果是Maven工程则需要引入坐标,坐标如下:
<!-- jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.7.2</version>
</dependency>
当然,也可以选择其他版本。如果需要导入jar包的话,可以自己下载。
3. 这里爬取的是淮河水利委员会水文局网站上的实时水情数据。
4. 代码如下:
package pachong;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.net.URL;
import java.util.Arrays;
public class JsoupDemo1
{
public static void main(String[] args) throws Exception
{
Document document = Jsoup.parse(new URL("http://www.hrc.gov.cn/swj/"), 5000);
Elements elements = document.select("[class=shuiqing_table] tr");
for (Element element : elements)
{
String text = element.text();
String[] s = text.split(" ");//字符串切割
System.out.println(Arrays.toString(s));
}
}
}
- 运行结果如下图: