【python爬虫】爬取QQ空间说说

最新推荐文章于 2024-10-03 08:15:00 发布

加油加油再加油x

最新推荐文章于 2024-10-03 08:15:00 发布

阅读量3.2k

点赞数 16

CC 4.0 BY-SA版权

分类专栏：爬虫与数据处理文章标签： python

本文链接：https://blog.csdn.net/weixin_43325134/article/details/105859772

爬虫与数据处理专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种使用selenium、beautifulsoup、pyautogui和echarts技术组合爬取QQ空间说说并进行数据可视化的方案。通过解析文本获取说说信息，包括QQ昵称、发送时间、浏览量及点赞详情。最后，利用echarts构建人际关系网络图，展示了好友之间的点赞互动关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

虽然扒qq空间不是很地道，但咱还是干干吧……正好也是闲来无事，我这个应该不会被别人发现 tao)

技术路线

selenium + beautifulsoup + pyautogui + echarts
selenium模拟浏览器
beautifulsoup解析文本
pyautogui 负责下拉
echarts 可视化图像

需要注意的点

QQ空间在加载的时候，是一部分一部分加载的。也就是说当下拉到最底的时候，才可以在网页中刷新出来新的内容，并且一部分说说消除掉。
如下图
在这里插入图片描述
下拉后

注：一个ul对应着一组说说

代码

了解了上面的现在就开始写代码
代码结构：

QQ空间解析

main.py
jiexi.py
data_conversion.py
visualization.py
data

第一步爬取说说&解析文本

# QQ空间解析/main.py
# encoding=utf-8
from selenium.webdriver import Edge
import time
import jiexi
import pyautogui
driver = Edge()
# yourqq写你的QQ号
driver.get("https://user.qzone.qq.com/yourqq/infocenter")
time.sleep(10) #在这10s内你要人工登录
for i in range(10000):
	time.sleep(1)
	html=driver.find_element_by_xpath("//*").get_attribute("outerHTML")
	# 解析html
	jiexi.get(html)
	pyautogui.scroll(-7500)
	# 向下滑动
	# time.sleep(1)
driver.close()

解析文本部分

# QQ空间解析/jiexi.py
#encoding = utf-8
from bs4 import BeautifulSoup as BS
import re

# 正则表达式进行匹配
def getText(match,text,group=1):
	tmp=re.search(match,text,re.S)
	if (tmp==None):
		return ""
	else:
		return tmp.group(group)

def get(html):
	soup=BS(html,"html.parser")
	shuoshuos=soup.find_all(name="li",attrs={"class":"f-single f-s-s"})
	for i in range(len(shuoshuos)):
		text=shuoshuos[i].get_text()
		user=getText(r"  (.*?)[  , ].*(\d\d:\d\d)",text)
		time=getText(r"  (.*?)[  , ].*(\d\d:\d\d)",text,group=2)
		llcs=getText(r"浏览(\d*?)次",text)
		haoyou=getText(r"\+1(.*?)[共,等](\d+)人觉得很赞",text).split("、")
		likes=getText(r"\+1(.*?)[共,等](\d+)人觉得很赞",text,group=2)
		dic={"user":user,"time":time,"llcs":llcs,"haoyou":haoyou,"likes":likes}
		# print("data/"+user+time+".txt")
		#在data文件夹下面保存
		with open("data/"+user+time.replace(":","")+".txt","w",encoding="utf-8") as f:
			f.write(str(dic))

然后运行main.py，然后可能需要你登录一下，让她爬一段时间（几个小时）。然后大功告成！
下图是data文件夹下面的一些生成txt文件
获取的QQ空间说说
txt内部内容
分别对应

QQ昵称
发送时间
浏览量
部分点赞好友
点赞数量

QQ说说具体内容我没爬，毕竟还是别啥都爬 /脸红
在这里插入图片描述
然后做一个数据可视化。我感觉还算是很绚丽的哦。

第二步数据可视化1 数据处理

#  QQ空间解析/data_conversion.py
import glob
filelist=glob.glob("data/*.txt")
dic={};
for file in filelist:
	with open(file,"r",encoding="utf-8") as f:
		d=eval(f.read())
		if (dic.get(d["user"])==None):
			dic[d["user"]]={}
		for haoyou in d["haoyou"]:
			if dic[d["user"]].get(haoyou)==None:
				dic[d["user"]][haoyou]=1
			else:
				dic[d["user"]][haoyou]=dic[d["user"]][haoyou]+1
l = []
for key in dic:
	if key == '':
		continue
	for key2 in dic[key]:
		if key2 == "":
			continue
		l.append([key,key2,dic[key][key2]])
		#key 收到 key2 dic[key][key2] 次点赞
with open("list.txt","w",encoding="utf-8") as f:
	f.write(str(l))

生成一个list.txt，里面记录着一个比较大的列表。

第三步数据可视化2 利用echart构建图

接下来我们用echarts进行数据可视化

#  QQ空间解析/visualization.py
from pyecharts.charts.basic_charts.graph import Graph
links = []
nodes = []
with open("list.txt","r",encoding="utf-8") as f:
    tmp = eval(f.read())
    dic = {}
    for item in tmp:
        dic[item[0]] = dic.get(item[0],1) + item[2]
        dic[item[1]] = dic.get(item[1],1)
        links.append({"source":item[1],"target":item[0],"value":item[2]})
    for key in dic:
        nodes.append({"name":key,"symbolSize": (dic.get(key,1)+9)//10,"value":dic[key]})

graph = Graph()
graph.add("",nodes,links,
        categories=None, # 结点分类的类目，结点可以指定分类，也可以不指定。
        is_focusnode=False, # 是否在鼠标移到节点上的时候突出显示节点以及节点的边和邻接节点。默认为 True
        is_roam=True,
          )
graph.render(r"QQ点赞关系图.html")