写在最开头
该程序主要是为爬取新浪微博,想要搜索的信息,主要报错的信息为文本,其他元素未涉及,此外微博博主信息,笔者也不关注,时间等信息同样不关注,主要目的就是获取文本信息。因此,本着对读者同样同样也是对自己负责的态度,文中添加了一些程序的注释及一些爬虫的思想。如果不感兴趣,直接想看程序,可以直接clone该代码,已上传到github;当然,如果有问题可以在评论中留言,可以和笔者一起探讨(其实,一些重点及难点,笔者多数都已文中提及到)。
下载浏览器驱动
这一步视你电脑装了哪个浏览器(具体使用使用什么版本根据浏览器自行选择)FireFox使用FireFoxdriver谷歌浏览器使用chromedriver
测试驱动是否匹配/font>
使用如下代码测试浏览器是否可能跳出,而且可以正常跳转到目标页面,则证明可以成功使用插件(注意笔者是将该插件放到当前目录下,如果放在其它地方,需要使用绝对路径)
from selenium import webdriver
driver = webdriver.Firefox(executable_path="geckodriver.exe")
#webdriver.Chrome(executable_path='chromedriver.exe')
driver.get('https://s.weibo.com')
模拟登陆
首先需要分析待爬取页面信息(右键检查或者直接F12)
这里多说几句,爬虫都是爬取静态页面,可以看一下,我们目标页面爬取并不是那么容易,需要经过几个步骤。
登录到页面之中(如果不登录