使用Python 爬取csdn 博客点赞访问总排名周排名粉丝获赞数据附源码

LIY若依

于 2024-08-03 20:35:45 发布

阅读量2.1k

点赞数 16

文章标签： python 开发语言

本文链接：https://blog.csdn.net/m0_74972192/article/details/140896479

版权

在这篇博客中，我将向大家展示如何使用 requests 和 BeautifulSoup 库来抓取网页数据。requests 是一个简单易用的 HTTP 库，而 BeautifulSoup 则是一个强大的 HTML 解析库，非常适合进行网页数据抓取。

准备工作

在开始之前，我们需要确保已经安装了以下工具：

Python：可以从 Python 官方网站下载并安装。
requests：可以通过以下命令安装：
```
pip install requests
```
BeautifulSoup：可以通过以下命令安装：
```
pip install beautifulsoup4
```

代码解释

导入库：我们首先导入 requests 和 BeautifulSoup 库。
获取目标网页的 URL：使用 input 函数从用户那里获取目标网页的 URL。
设置请求头：为了模拟浏览器请求，我们设置了一个 User-Agent 请求头。
发送 GET 请求：使用 requests.get 方法发送 GET 请求，并获取网页的响应内容。
解析 HTML 文档：使用 BeautifulSoup 解析 HTML 文档，并创建一个 soup 对象。
查找目标标签：使用 soup.find_all 方法查找所有 div 标签，且 class 为 "data-info d-flex item-tiling"。
遍历并提取数据：遍历所有找到的 div 标签，进一步查找其中的 dl 标签，并提取 title 属性、count 和描述信息。
打印结果：将提取到的数据打印出来。

代码实现

以下是完整的代码示例：

import requests
from bs4 import BeautifulSoup

# 目标网页的URL
url = input("请输入博客连接：")

headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}

# 发送GET请求
response = requests.get(url, headers=headers)

# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')

# 查找所有的div标签，class为"data-info d-flex item-tiling"
div_tags = soup.find_all('div', class_='data-info d-flex item-tiling')

# 遍历所有的div标签
for div in div_tags:
    # 找到所有的dl标签
    dl_tags = div.find_all('dl')
    for dl in dl_tags:
        # 获取title属性
        title = dl.get('title')
        # 尝试获取count
        span_tag = dl.find('span', class_='count')
        if span_tag is not None:
            count = span_tag.text
        else:
            count = 'N/A'
        # 获取描述
        desc = dl.find('dd').text
        print(f'title: {title}, count: {count}, description: {desc}')