相关连接 了解jsoup点击打开链接
基本步骤:
1.根据一个URL地址加载Document对象
Document doc = Jsoup.connect(lurl).userAgent("Mozilla/5.0").timeout(3000).post();
url是网页链接,3000表示超时时间为3秒
userAgent是代理服务器,让服务器感觉访问者更像一个真实的浏览器在访问,
例如:"Mozilla/5.0 (Windows NT 6.1; rv:22.0) Gecko/20100101 Firefox/22.0"
2.解析网页
1.使用docment来遍历
查找元素:
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key)(and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()
Graph: parent(), children()), child(int index)
元素数据:
attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容(例如:script和style标签)
tag() and tagName()
操作HTML和文本:
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)
例子:
Elements elements = docment.getElementsByTag("a");//找到所有a标签
String relHref = element.attr("href");
String linkHref = element.text();
2.使用选择器来查找元素
docment.select(String cssQuery )
soup elements对象支持类似于CSS (或jquery)的选择器语法,来实现非常强大和灵活的查找功能。.
这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的,因此可实现指定元素的过滤,或者链式选择访问。
Select方法将返回一个Elements集合,并提供一组方法来抽取和处理结果。