唐诗页面爬取 --- 获取列表页

最新推荐文章于 2024-03-20 10:35:39 发布

Wangwq.

最新推荐文章于 2024-03-20 10:35:39 发布

阅读量513

点赞数

分类专栏：唐诗三百首

本文链接：https://blog.csdn.net/qq_43632625/article/details/104069626

版权

获取到当前访问的网页，包括其内容及布局等。以便我们后期获取每一首诗。即把当前网页以html文件形式保存至本地。

（1）通过HttpClient请求到达某网页的url访问地址
（2）获取网页源码
（3）查看源码中我们需要的模块的标签属性等
（4）从列表页上获取到每一首唐诗的详情页url

1）构造（模拟）一个无界面的浏览器，构造方法中可传入浏览器版本，以BrowserVersion.xxx的形式

WebClient webClient = new WebClient(BrowserVersion.CHROME);

2）为了加快页面的访问速度，禁用js和css脚本。
htmlunit默认是会对网页中的css、js解析的，对于一般的非Js加载页面采集，我们可以把css、javascript解析去掉，这样可以提高效率。

//关闭了浏览器中的js执行引擎
webClient.getOptions ().setJavaScriptEnabled (false);
//关闭了浏览器中的ccs执行引擎
webClient.getOptions ().setCssEnabled (false);

3）获取页面源码，其中传入的是当前需要获取的页面网址。

HtmlPage page &#

关注