第四模块 常规动态网页爬取
4.1 概述
静态网页:
完全可以直接获取网页源代码
动态网页:
网络信息是动态的,无法直接提取。
主流的两种方法:
4.2 逆向分析爬取动态网页
核心:跟踪操作行为,提取有价值的信息,进行合理调动
具体步骤如下:
代码实现:
4.3.1 Selenium打开浏览对象
安装下载selenium库和浏览器补丁
1.sekenium安装:
如下图:
在系统➡高级系统设置➡环境变量➡系统变量(Path)➡新建
将下载好的(一定是符合本版本chrome的(某蒟蒻卡了一天))chrome driver.exe的位置设置与python同一路径并添加到环境变量中(如图)
代码实现:
4.3.2 Selenium页面等待