Jsoup挺好用,可以方便的在java中抓取html的内容,记录一个抓取东方财富网站信息的例子
目标:获取快讯中的标题条目和时间,如果是href需要抓下href信息,保存到本地自己的Message类中
Document doc = Jsoup.connect("http://kuaixun.eastmoney.com/").get(); //读取要访问的网站
Element data = doc.getElementById("livenews-list"); //找到要解析的节点
System.out.println(data);
List<News> list = new ArrayList<News>();
Elements newElement = data.getElementsByClass("media-title-box"); //找到节点中要解析的内容条目
System.out.println(newElement.size());
for(Element e : newElement){
Elements contents = e.getElementsByClass("media-title"); //获取标题
System.out.println(contents.size());
if(contents.isEmpty()){
continue;
}
Element content = contents.get(0);
System.out.println(content);
News message =