jsoup解析url中的html元素
有时候需要通过解析不同网站的网站元素、数据等信息做些基本的调研或者分析。随着技术的不断发展及升级,很多网站已经升级使用vue或者相关前端框架作为首选。这样的话,使用jsoup方式无法内容元素,因为内容不是即时输出到页面上,而是通过js动态渲染。这种情况的话需要配合selenium浏览器测试工具处理,配合相关浏览器的驱动程序,也比较好用。下面先放出jsoup方式
bing搜索的解析代码如下
动作:获取输入搜索词后的首页列表标题 + 链接
执行结果如下
标题:一个程序猿的编码人生
连接:https://www.deathearth.com/
标题:servlet2.5升级servlet3.1/servlet4.0的新特性(注解替换web …
连接:https://www.deathearth.com/834.html
标题:《java开发手册》1.5.0华山版云盘下载,阿里巴巴集团技术 …
连接:https://www.deathearth.com/881.html
标题:脚本清理最近X日之前的ELK日志文件,优化磁盘空间 – 程序猿 …
连接:https://www.deathearth.com/370.html
标题:java使用transportClient连接elasticsearch并做接口实现增删改 …
连接:https://www.deathearth.com/651.html
标题:使用AOP拦截controller层方法时,通过监控方法上的注解 …
连接:https://www.deathearth.com/227.html
标题:SpringBoot改造异常:Invalid bean definition with name …
连接:https://www.deathearth.com/549.html
标题:环境搭建-Eclipse安装Spring-Tool-Sutite插件并创建简单的 …
连接:https://www.deathearth.com/455.html
标题:windows10_x64下配置hadoop2.7.5的环境搭建介绍 – 程序猿 …
连接:https://www.deathearth.com/67.html
标题:elasticsearch6.4.2安装x-pack安全认证后,java如何使用 …
连接:https://www.deathearth.com/679.html
总结整理
这种方式只适合还没有进行vue改造的网站,有较完整的api封装调用简便。其他工具处理对于元素的获取大同小异,还是最终根据需求选择