目的:
获取到当前访问的网页,包括其内容及布局等。以便我们后期获取每一首诗。即把当前网页以html文件形式保存至本地。
步骤:
(1)通过HttpClient请求到达某网页的url访问地址
(2)获取网页源码
(3)查看源码中我们需要的模块的标签属性等
(4)从列表页上获取到每一首唐诗的详情页url
具体实现:
1) 构造(模拟)一个无界面的浏览器,构造方法中可传入浏览器版本,以BrowserVersion.xxx的形式
WebClient webClient = new WebClient(BrowserVersion.CHROME);
2) 为了加快页面的访问速度,禁用js和css脚本。
htmlunit默认是会对网页中的css、js解析的,对于一般的非Js加载页面采集,我们可以把css、javascript解析去掉,这样可以提高效率。
//关闭了浏览器中的js执行引擎
webClient.getOptions ().setJavaScriptEnabled (false);
//关闭了浏览器中的ccs执行引擎
webClient.getOptions ().setCssEnabled (false);
3) 获取页面源码,其中传入的是当前需要获取的页面网址。
HtmlPage page &#