jsoup教程 jsoup是一款Java的HTML解析器,主要用来对HTML解析。 在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容, 就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。 虽然jsoup也支持从某个地址直接去爬取网页源码,但是只支持HTTP,HTTPS协议,支持不够丰富。 所以,主要还是用来对HTML进行解析。 ◆其中,要被解析的HTML可以是一个HTML的字符串,可以是一个URL,可以是一个文件。 org.jsoup.Jsoup把输入的HTML转换成一个org.jsoup.nodes.Document对象,然后从Document对象中取出想要的元素。 org.jsoup.nodes.Document继承了org.jsoup.nodes.Element,Element又继承了org.jsoup.nodes.Node类。里面提供了丰富的方法来获取HTML的元素。 ◇从URL获取HTML来解析 [Java] 纯文本查看 复制代码 ?
1 2 |
Document doc = Jsoup.connect( "http://www.baidu.com/" ).get(); String title = doc.title(); |
其中Jsoup.connect("xxx")方法返回一个org.jsoup.Connection对象。 在Connection对象中,我们可以执行get或者post来执行请求。但是在执行请求之前, 我们可以使用Connection对象来设置一些请求信息。比如:头信息,cookie,请求等待时间,代理等等来模拟浏览器的行为。 [Java] 纯文本查看 复制代码 ?
1 2 3 4 5 6 |
Document doc = Jsoup.connect( "http://example.com" ) .data( "query" , "Java" ) .userAgent( "Mozilla" ) .cookie( "auth" , "token" ) .timeout( 3000 ) .post(); |
◆获得Document对象后,接下来就是解析Document对象,并从中获取我们想要的元素了。 Document中提供了丰富的方法来获取指定元素。 ◇使用DOM的方式来取得 getElementById(String id):通过id来获取 getElementsByTag(String tagName):通过标签名字来获取 getElementsByClass(String className):通过类名来获取 getElementsByAttribute(String key):通过属性名字来获取 getElementsByAttributeValue(String key, String value):通过指定的属性名字,属性值来获取 getAllElements():获取所有元素 ◇通过类似于css或jQuery的选择器来查找元素 使用的是Element类的下记方法: public Elements select(String cssQuery) 通过传入一个类似于CSS或jQuery的选择器字符串,来查找指定元素。 例子: [Java] 纯文本查看 复制代码 ?
01 02 03 04 05 06 07 08 09 10 11 |
File input = new File( "/tmp/input.html" ); Document doc = Jsoup.parse(input, "UTF-8" , "http://example.com/" ); Elements links = doc.select( "a[href]" ); //带有href属性的a元素 Elements pngs = doc.select( "img[src$=.png]" ); //扩展名为.png的图片 Element masthead = doc.select( "div.masthead" ).first(); //class等于masthead的div标签 Elements resultLinks = doc.select( "h3.r > a" ); //在h3元素之后的a元素 |
选择器的更多语法(可以在org.jsoup.select.Selector中查看到更多关于选择器的语法): tagname: 通过标签查找元素,比如:a ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法来查找 <fb:name> 元素 #id: 通过ID查找元素,比如:#logo .class: 通过class名称查找元素,比如:.masthead [attribute]: 利用属性查找元素,比如:[href] [^attr]: 利用属性名前缀来查找元素,比如:可以用[^data-] 来查找带有HTML5 Dataset属性的元素 [attr=value]: 利用属性值来查找元素,比如:[width=500] [attr^=value], [attr$=value], [attr=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素,比如:[href=/path/] [attr~=regex]: 利用属性值匹配正则表达式来查找元素,比如: img[src~=(?i).(png|jpe?g)] *: 这个符号将匹配所有元素 Selector选择器组合使用 el#id: 元素+ID,比如: div#logo el.class: 元素+class,比如: div.masthead el[attr]: 元素+class,比如: a[href] 任意组合,比如:a[href].highlight ancestor child: 查找某个元素下子元素,比如:可以用.body p 查找在"body"元素下的所有 p元素 parent > child: 查找某个父元素下的直接子元素,比如:可以用div.content > p 查找 p 元素,也可以用body > * 查找body标签下所有直接子元素 siblingA + siblingB: 查找在A元素之前第一个同级元素B,比如:div.head + div siblingA ~ siblingX: 查找A元素之前的同级X元素,比如:h1 ~ p el, el, el:多个选择器组合,查找匹配任一选择器的唯一元素,例如:div.masthead, div.logo 伪选择器selectors :lt(n): 查找哪些元素的同级索引值(它的位置在DOM树中是相对于它的父节点)小于n,比如:td:lt(3) 表示小于三列的元素 :gt(n):查找哪些元素的同级索引值大于n,比如: div p:gt(2)表示哪些div中有包含2个以上的p元素 :eq(n): 查找哪些元素的同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签的Form元素 :has(seletor): 查找匹配选择器包含元素的元素,比如:div:has(p)表示哪些div包含了p元素 :not(selector): 查找与选择器不匹配的元素,比如: div:not(.logo) 表示不包含 class="logo" 元素的所有 div 列表 :contains(text): 查找包含给定文本的元素,搜索不区分大不写,比如: p:contains(jsoup) :containsOwn(text): 查找直接包含给定文本的元素 :matches(regex): 查找哪些元素的文本匹配指定的正则表达式,比如:div:matches((?i)login) :matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素 注意 :上述伪选择器索引是从0开始的,也就是说第一个元素索引值为0,第二个元素index为1等 ◆通过上面的选择器,我们可以取得一个Elements对象,它继承了ArrayList对象,里面放的全是Element对象。 接下来我们要做的就是从Element对象中,取出我们真正需要的内容。 通常有下面几种方法: ◇Element.text() 这个方法用来取得一个元素中的文本。 ◇Element.html()或Node.outerHtml() 这个方法用来取得一个元素中的html内容 ◇Node.attr(String key) 获得一个属性的值,例如取得超链接<a href="">中href的值 综合实例:采集开源中国项目信息 [Java] 纯文本查看 复制代码 ?
001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 |
|