一小时教会你单线程爬取微博热搜

最新推荐文章于 2024-08-02 17:01:43 发布

星河百穿

最新推荐文章于 2024-08-02 17:01:43 发布

阅读量874

点赞数 3

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/m0_46405703/article/details/113186116

版权

本文将教你如何使用Python单线程爬虫抓取微博热搜内容。通过讲解安装Python环境、导入requests和BeautifulSoup等库，详细阐述了请求网页、解析网页源代码的步骤，让你快速掌握微博热搜爬取技巧。

摘要由CSDN通过智能技术生成

【Python爬虫】单线程爬取微博热搜

最近有很多小伙伴们都天天在微博上吃到各种不少的瓜吧，一打开微博热搜榜就是当下的热点头条。那么我们怎么用程序来爬取微博热搜的内容呢？
今天我就来教会大家怎么用爬虫爬取微博热搜上的内容，可以随时随地在自己电脑上run一下就可以获取到当下微博热搜。

首先，什么是爬虫呢？

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 ——《百度百科》

我们写爬虫用的是Python语言（一般写爬虫程序都是选择Python）
关于Python如何安装我就不在这里赘述了，大家可自行到网上去百度下载，网上也有各种教程教你安装Python环境，安装起来也很简单。

写爬虫程序一般要用到一些第三方库，比如requests,bs4,xpath…
安装方法：打开cmd；输入：

pip install requests #例如安装requests

写爬虫第一步，导入需要的第三方库（也可以什么时候需要什么时候加）

import requests
from bs4 import BeautifulSoup
from urllib import parse
import time

然后，我们需要微博热搜的网址，即url。URL=https://s.weibo.com/top/summary?cate=realtimehot
所谓爬虫就是我们用程序模拟人类行为去请求访问服务器，然后服务器会给我们回应，返回网页内容。

定义第一个函数：请求网页内容。这里我们先给出一部分代码：

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}    #模拟浏览器行为

def get_url(url):
    response = requests.get(url,headers=headers)
    if response.sta