关于我想python调查在表白墙上找女/男朋友成功率低这件事

昨天,我突然想调查一下那些在表白墙上发信息找男女朋友的人有多少成功的。由于表白墙每天都会更新大量信息。一个一个去找实在是过于麻烦。
于是想到用python来爬取表白墙的说说的图片。qq空间还是能够用浏览器打开的。那么就能够使用python来爬取图片。

首先,需要模拟登录,我在csdn上搜到一个大佬写的爬取qq空间说说的python代码,我就下载下来了。然后研究了一番,费了一些功夫。然后修改了一些
这里是参考的文章的链接link
大佬的博客地址我也没记下来
在此之前,需要下载webdriver,我用的火狐的请自行下载

这个过程中,分析html这一步比较费时间,先要分析出图片的url地址是哪一个
之后是正则匹配,正则匹配用的不熟,又得去学。
在有一个地方真的是费了我好大功夫,当我请求图片url地址时,本地保存的是个文件,我一直以为是因为请求错误,到后来,我才发现,是保存地址出现了错误,路径中出现了一个冒号,因为要把图片和时间对应起来,我就把时间也爬下来了,然后转换为规范的时间格式,没想到因为有个冒号,我费了2个多小时去排查这个错误。哎

#首先导入必要的包
import time
import requests
from selenium import webdriver
import re

# g_tk算法
def get_g_tk(cookie):
    hashes = 5381
    for letter in cookie['p_skey']:
        hashes += (hashes << 5) + ord(letter)
    return hashes & 0x7fffffff
# 使用selenium登录

def login(user,pwd):
    driver=webdriver.Firefox()
    # 打开QQ网页
    driver.get("https://qzone.qq.com/")
    driver.switch_to_frame('login_frame')
    driver.find_element_by_id('switcher_plogin').click()
    driver.find_element_by_id('u').clear()
    driver.find_element_by_id('u').send_keys(user)# 填你的qq号
    driver.find_element_by_id('p').clear()
    driver.find_element_by_id('p').send_keys(pwd)# 填你的密码
    driver.find_element_by_id('login_button').click()
    time.sleep(5)
    #把Frame的定位换回来 都这样做的哦不然要报错
    driver.switch_to.default_content()
    return driver
#返回session
def back_session(driver):
    mysession=requests.session()
    cookies=driver.get_cookies()
    cookie={
   }
    for elem in cookies:
        cookie[elem['name']] = elem['value']
    headers={
      'host': 'h5.qzone.qq.com',
    'accept-encoding':'gzip, deflate, br',
    'accept-language':'zh-CN,zh;q=0.8'
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值