使用HtmlUnit获取博客园第一页的所有文章标题

HtmlUnit的参考资料:http://htmlunit.sourceforge.net/
HtmlUnit的maven depedency:
<dependency>
    <groupId>net.sourceforge.htmlunit</groupId>
    <artifactId>htmlunit</artifactId>
    <version>2.18</version>
</dependency>
代码:

import java.util.List;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlDivision;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class GetFirstPageTitles {
    private static void solve() throws Exception {
        final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_38);
        final HtmlPage page = webClient.getPage("http://www.cnblogs.com/wuyouwulv");
        
        final List<HtmlDivision> divs = (List<HtmlDivision>) page.getByXPath("//div[@class='postTitle']");
        
        for(HtmlDivision div : divs) {
            System.out.println(div.asText());
        }
    }
    
    public static void main(String[] args) throws Exception {
        solve();
    }
}


结果:
Jython引用Java类
Ubuntu15.10下Hadoop2.6.0伪分布式环境安装配置及Hadoop Streaming的体验
python使用wxPython创建一个简单的文本编辑器。
一次在局域网中ssh连接的尝试
ubuntu下使用code::blocks编译运行一个简单的gtk+2.0项目
[转]json-lib 的maven dependency
Codeforces Round #320 (Div. 1) [Bayan Thanks-Round] B. "Or" Game
maven添加oracle jdbc依赖
我的ubuntu新系统自动装软件脚本
k近邻算法C++二维情况下的实现

转载于:https://www.cnblogs.com/wuyouwulv/p/htmlunit_get_titles.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值