【超详细】QQ空间说说爬取教程
暑假闲来无事,研究了一下QQ空间的爬取,以下是一些记录
环境
- 系统: win10
- 语言: python3.7
- 浏览器: Chrome
- 数据库: mysql 8.0
selenium模拟登录
QQ空间的反爬做的相对较好,而且由于好友权限的原因,我们要先登录后再进行说说等信息的获取
selenium是获取登录cookies的一大利器,非常方便
在空间的登陆界面可以观察到,登录的窗口与背景窗口是分开的,所以我们需要先切换frame
切换窗口后定位到账号密码登录
元素的位置后点击
使用send_keys
函数把账号和密码写入对应位置后定位登录
元素后点击,这里使用自带的get_cookies
函数获取到cookies,但是这个cookies需要过滤一下,具体操作看以下代码
代码为类的部分节选,完整代码在最后,未声明的变量皆为类的成员变量
def login_func(self,z):
browser = webdriver.Chrome()
browser.maximize_window()
browser.get(self.login_url)
time.sleep(1.2)
browser.switch_to.frame('login_frame')
browser.find_element_by_id('switcher_plogin').click()
time.sleep(1)
browser.find_element_by_id('u').send_keys(self.number)
browser.find_element_by_id('p').send_keys(self.password)
time.sleep(1)
browser