微博关于搜索话题数据的爬虫Python全代码实现(效果如封面)

 一、准备

(本文是关于“网恋”话题,打比赛顺带做的,需要其他的可以自己改)

1.微博关于网恋话题的网址:https://s.weibo.com/weibo?q=%E7%BD%91%E6%81%8B

2.必要的库:

        Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库,比 urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求,无需手动为 URL 添加查询串, 也不需要对 POST 数据进行表单编码。相对于 urllib3 库, requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能

        Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据。

        Pandas 库是机器学习四个基础库之一, 它有着强大的数据分析能力和处理工具。它支持数据增、删、改、查;支持时间序列分析功能;支持灵活处理缺失数据;具有丰富的数据处理函数;具有快速、灵活、富有表现力的数据结构:DataFrame 数据框和 Series 系列。

        time库是Python中处理时间的标准库,是最基础的时间处理库。

import requests  # 发送请求
from bs4 import BeautifulSoup  # 解析网页
import pandas as pd  # 存取csv
from time import sleep  # 等待时间

二、了解和明白目标

1.需要和准备提取的信息

names = []
urls = []
times = []
coms = []
shares = []
stars = []
talks = []


df['链接'] = urls
df['名称'] = names
df['时间'] = times
df['发表'] = coms
df['分享'] = shares
df['讨论'] = talks
df['点赞'] = stars

 2.网页的位置信息

  • 15
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值