一、准备
(本文是关于“网恋”话题,打比赛顺带做的,需要其他的可以自己改)
1.微博关于网恋话题的网址:https://s.weibo.com/weibo?q=%E7%BD%91%E6%81%8B
2.必要的库:
Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库,比 urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求,无需手动为 URL 添加查询串, 也不需要对 POST 数据进行表单编码。相对于 urllib3 库, requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能
Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据。
Pandas 库是机器学习四个基础库之一, 它有着强大的数据分析能力和处理工具。它支持数据增、删、改、查;支持时间序列分析功能;支持灵活处理缺失数据;具有丰富的数据处理函数;具有快速、灵活、富有表现力的数据结构:DataFrame 数据框和 Series 系列。
time库是Python中处理时间的标准库,是最基础的时间处理库。
import requests # 发送请求
from bs4 import BeautifulSoup # 解析网页
import pandas as pd # 存取csv
from time import sleep # 等待时间
二、了解和明白目标
1.需要和准备提取的信息
names = []
urls = []
times = []
coms = []
shares = []
stars = []
talks = []
df['链接'] = urls
df['名称'] = names
df['时间'] = times
df['发表'] = coms
df['分享'] = shares
df['讨论'] = talks
df['点赞'] = stars
2.网页的位置信息