微博关于搜索话题数据的爬虫Python全代码实现（效果如封面）

落在树梢上.

于 2024-04-21 19:11:07 发布

阅读量519

点赞数 15

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_72242066/article/details/137997474

版权

一、准备

（本文是关于“网恋”话题，打比赛顺带做的，需要其他的可以自己改）

1.微博关于网恋话题的网址：https://s.weibo.com/weibo?q=%E7%BD%91%E6%81%8B

2.必要的库：

Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库，比 urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求，无需手动为 URL 添加查询串，也不需要对 POST 数据进行表单编码。相对于 urllib3 库， requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能

Beautiful Soup 简称 BS4（其中 4 表示版本号）是一个 Python 第三方库，它可以从 HTML 或 XML 文档中快速地提取指定的数据。

Pandas 库是机器学习四个基础库之一， 它有着强大的数据分析能力和处理工具。它支持数据增、删、改、查；支持时间序列分析功能；支持灵活处理缺失数据；具有丰富的数据处理函数；具有快速、灵活、富有表现力的数据结构：DataFrame 数据框和 Series 系列。

time库是Python中处理时间的标准库，是最基础的时间处理库。

import requests  # 发送请求
from bs4 import BeautifulSoup  # 解析网页
import pandas as pd  # 存取csv
from time import sleep  # 等待时间

二、了解和明白目标

1.需要和准备提取的信息

names = []
urls = []
times = []
coms = []
shares = []
stars = []
talks = []


df['链接'] = urls
df['名称'] = names
df['时间'] = times
df['发表'] = coms
df['分享'] = shares
df['讨论'] = talks
df['点赞'] = stars

2.网页的位置信息