关于适用selenium抓文档的一个简单记录,以百度文库为例。selenium的原理大概是:利用javascript语句与浏览器驱动交互,从而控制浏览器操作网页的行为。
而使用selenium实现爬虫一般是因为网页是动态加载的,目标内容需要经过一定操作才能在元素审查中出现。以百库文库为例(https://wenku.baidu.com/view/217d303c76eeaeaad0f33075.html),较大的文档的展示一般是通过分页展示,并且每一页的内容不会全部加载,要在浏览到当前页才会加载当前几页的内容。像这个文档,一次显示五十页,但是只会加载当前浏览进度处的三叶内容。因此要自动抓取这个内容需要实现滚动功能。
selenium有两种滚动方式:
第一种,滚动到特定位置“:
driver.execute_script('var q=document.body.scrollTop=3500') 滚动到页面的3500像素处(从上往下)(通过网页审查可以看到整个网页的像素大小)
第二种,以当前位置为参照,滚动一定距离: