昨天,我突然想调查一下那些在表白墙上发信息找男女朋友的人有多少成功的。由于表白墙每天都会更新大量信息。一个一个去找实在是过于麻烦。
于是想到用python来爬取表白墙的说说的图片。qq空间还是能够用浏览器打开的。那么就能够使用python来爬取图片。
首先,需要模拟登录,我在csdn上搜到一个大佬写的爬取qq空间说说的python代码,我就下载下来了。然后研究了一番,费了一些功夫。然后修改了一些
这里是参考的文章的链接link
大佬的博客地址我也没记下来
在此之前,需要下载webdriver,我用的火狐的请自行下载
这个过程中,分析html这一步比较费时间,先要分析出图片的url地址是哪一个
之后是正则匹配,正则匹配用的不熟,又得去学。
在有一个地方真的是费了我好大功夫,当我请求图片url地址时,本地保存的是个文件,我一直以为是因为请求错误,到后来,我才发现,是保存地址出现了错误,路径中出现了一个冒号,因为要把图片和时间对应起来,我就把时间也爬下来了,然后转换为规范的时间格式,没想到因为有个冒号,我费了2个多小时去排查这个错误。哎
#首先导入必要的包
import time
import requests
from selenium import webdriver
import re
# g_tk算法
def get_g_tk(cookie):
hashes = 5381
for letter in cookie['p_skey']:
hashes += (hashes << 5) + ord(letter)
return hashes & 0x7fffffff
# 使用selenium登录
def login(user,pwd):
driver=webdriver.Firefox()
# 打开QQ网页
driver.get("https://qzone.qq.com/")
driver.switch_to_frame('login_frame')
driver.find_element_by_id('switcher_plogin').click()
driver.find_element_by_id('u').clear()
driver.find_element_by_id('u').send_keys(user)# 填你的qq号
driver.find_element_by_id('p').clear()
driver.find_element_by_id('p').send_keys(pwd)# 填你的密码
driver.find_element_by_id('login_button').click()
time.sleep(5)
#把Frame的定位换回来 都这样做的哦不然要报错
driver.switch_to.default_content()
return driver
#返回session
def back_session(driver):
mysession=requests.session()
cookies=driver.get_cookies()
cookie={
}
for elem in cookies:
cookie[elem['name']] = elem['value']
headers={
'host': 'h5.qzone.qq.com',
'accept-encoding':'gzip, deflate, br',
'accept-language':'zh-CN,zh;q=0.8'