今天需要在其他网站上获取一些数据.想到了爬取框架.
解析html框架很多.比较一些框架的介绍以后,感觉jsoup更易使用. 而且在使用中发现jsoup还是很稳定的.
得到jsoup的jar包 , 下面是官网
只有一个文件.开始以下步骤吧....
1,获取网站的connection
可以设置参数,头信息,cookie, 超时 等...
Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; rv:5.0)").timeout(3*1000).get();
get()方法获取jsoup的 Document 对象.
2,使用选择器来选择有用的标签(内容)
这是jsoup优势所在啦. 可以使用类似于 jquery选择方法, 例如要得到 class="content" 的 div 标签(当然获得的是一个集合),那么就可以 写成
Elements els= doc.select("div.content");
3,获取内容或是html元素
获取text 或是html的区别就是带不带html标签,
一般获取较大文本, 类似于<br/> 标签是非常有用的, 保留下来 替换 用于回车换行,
for(Element