【python爬虫】QQ空间爬虫 笔记

〇、前情提要

给爷爬。
参考:

  1. heartbreaker97/spider_qzone_friends
    https://github.com/heartbreaker97/spider_qzone_friends
  2. python爬虫-登录QQ空间获取COOKIES
    https://www.bilibili.com/video/BV1w7411W7YR
  3. python爬虫-QQ好友列表获取
    https://www.bilibili.com/video/BV157411W7cx
  4. python爬虫-说说点赞和评论列表获取
    https://www.bilibili.com/video/BV1L7411W7ce

一、README.md

qq空间爬虫生成好友关系网

使用方法:

  1. 将cookie.py的chromedriver的地址修改成自己的(设置了环境变量的可不设置),账号密码按照提示修改后运行,生成cookie
  2. 运行spider.py爬取数据并初步分析将结果生成txt文件保存至本地
  3. 运行show_relation下的analysis.py,得到好友关系值文件
  4. 将show_relation中的relation.php按照其中提示修改第三步得到的txt文件的路径,再将整文件夹放置本地搭建的web服务器下,并在http://echarts.baidu.com/download.html 下载echarts插件,放在该文件夹下在浏览器上打开relation.php

效果图,为了显示效果和隐私问题,把名字给去了
在这里插入图片描述
局部效果
在这里插入图片描述

爬虫太慢,代码还在持续修改重构中,针对没有搭建本地web服务器的显示结果

二、登录QQ空间获取COOKIES-cookie.py

在这里插入图片描述

from selenium import webdriver
from time import sleep
import json

怎么使用selenium,及其驱动和浏览器匹配情况。

driver = webdriver.Chrome()
自动打开Chrome浏览器
driver.get('https://user.qzone.qq.com/你的qq/main')
自动登录你的qq主页

在这里插入图片描述
driver.switch_to.frame('login_frame')
找到登录的iframe

在这里插入图片描述
driver.switch_to.frame('login_frame')
safari审查元素,账号密码登录为< a >,其id为switcher_plogin
driver.find_element_by_id('switcher_plogin').click()
找到该元素点击,模拟用户浏览器行为

在这里插入图片描述
跳转到账号密码登录后,两个< input >的id分别为u和p
driver.find_element_by_id('u').send_keys('你的qq') driver.find_element_by_id('p').send_keys('你的密码')

driver.find_element_by_id('login_button').click()
模拟用户按了登录按钮,此时登录的cookies被保存。

cookies = driver.get_cookies()
cookie_dic = {
   }
for cookie in cookies:
    if 'name' in cookie and 'value' in cookie:
        cookie_dic[cookie['name']] = cookie['value']
    with open('cookie_dict.txt', 'w') as f:
        json.dump(cookie_dic, f)

最后得到的cookie_dict文件如下所示:
在这里插入图片描述
例如ptui_loginuin为qq号…

from selenium import webdriver
from time import sleep
import json

#chromedriver = 'C:/Users/13180/AppData/Local/Google/Chrome/Application/chromedriver.exe'
#driver = webdriver.Chrome(chromedriver)
driver = webdriver.Chrome()
driver.get('https://user.qzone.qq.com/你的qq/main')
driver.switch_to.frame('login_frame')
#找到账号密码登陆的地方
driver.find_element_by_id('switcher_plogin').click()
driver.find_element_by_id('u').send_keys('你的qq')
driver.find_element_by_id('p').send_keys('你的密码')
driver.find_element_by_id('login_button').click()
#保存本地的cookie
sleep(1)
cookies = driver.get_cookies()
cookie_dic = {
   }
for cookie in cookies:
    if 'name' in cookie and 'value' in cookie:
        cookie_dic[cookie['name']] = cookie['value']
    with open('cookie_dict.txt', 'w') as f:
        json.dump(cookie_dic, f)

三、QQ好友列表获取

进入空间后,点击说说,点击@,在Network里会弹出一个新的response(来自qq服务器)
在这里插入图片描述
双击该response,进入preview,data会返回很多信息,uin为qq号,name为qq昵称,remark为注释
通过程序来获取这样一个网址,然后可以得到一个相应
在这里插入图片描述
相应有如下参数:g_tk为最关键的参数
在这里插入图片描述
以下方法提供如何求gtk的值,求出后网址便构造完毕

#算出来gtk
    def get_gtk(self):
        p_skey = cookie['p_skey']
        h
  • 3
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值