java爬取网页内容主要使用jsoup工具
maven依赖:
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency>
jsoup介绍:
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API, 可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据
主要功能:
1)从一个URL,文件或字符串中解析HTML 2)使用DOM或CSS选择器来查找、取出数据 3)可操作HTML元素、属性、文本 注意:jsoup是基于MIT协议发布的,可放心使用于商业项目
简单使用方法:
Document doc = Jsoup.connect("https://www.tianqi.com/chinacity.html").get(); Elements citybox = doc.select(".citybox a"); Elements atag=citybox.tagName("a"); StringBuilder sb=new StringBuilder(); String province=""; for (int i=0;i<atag.size();i++){ boolean isprovince=atag.get(i).attr("href").contains("province"); if(isprovince){ province=atag.get(i).text(); continue; } String href=atag.get(i).attr("href").replace('/',' ').trim(); String cityname=atag.get(i).text(); String all=href.concat("-").concat(cityname).concat("|"); sb.append(all); }
其他使用方法详见:
http://www.open-open.com/jsoup/