public String parseContent(String keyword) throws IOException {
//这里输入想要爬取的地址+想要搜索的字段,我这里输入的是百度百科的地址
String rooturl = "https://baike.baidu.com/item/"+keyword;
//解析地址,获取该页面的html的所有内容信息
Document document = Jsoup.connect(rooturl).get();
//我这里获取的是命名为class=lemma-summary的标签,获取的是论语的词条信息<div class="lemma-summary" label-module="lemmaSummary">
//这里使用document对象调用对应标签的方法,输入对应的标签,就可以获取想要的信息
Elements elements = document.getElementsByClass("lemma-summary");
for (Element element : elements) {
//获取标签中的文本信息
String text = element.text();
return element.text();
}
return null;
}
这里爬取的是百度百科的头部词条信息,也可以爬取其他网站的信息,按照上面的提示进行编写即可
Document中的获取标签的方法需要自行搜索