JAVA 解析HTML
依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.1</version>
</dependency>
代码实现
新建方法:
Document doc = Jsoup.connect(“网站”).get();
- 通过引入的依赖就会被解析成节点个数
- 接下来就是需要根据需求解析docm tree
具体解析需要解析的htm 中的class ,寻找A标签包含的数据。
Element searchInfo= doc.getElementsByClass(“content jtdt_div”).first();
Elements elements = searchInfo.getElementsByTag(“a”);
@Override
public int getInfo() throws IOException {
Document doc = Jsoup.connect("网站“).get();
Element searchInfo= doc.getElementsByClass("content jtdt_div").first();
Elements elements = searchInfo.getElementsByTag("a");
for (Element element : elements) {
String relHref = element.attr("href"); // == "/"这个是href的属性值,一般都是链接。这里放的是文章的连接
String text = element.attr("title");
RealTimeInfoEntity realTimeInfoEntity = new RealTimeInfoEntity();
realTimeInfoEntity.setInfoName(text);
realTimeInfoEntity.setInfoUrl(relHref);
}
return 1;
}