Python网络爬虫：50行代码爬取CSDN博客文章列表并将点赞评论等数据存储到Excel表格

wangzirui32

于 2021-04-09 22:26:53 发布

阅读量674

点赞数 2

分类专栏： Python Python网络爬虫 Python番外篇文章标签： python

本文链接：https://blog.csdn.net/wangzirui32/article/details/115560472

版权

该博客介绍了如何使用Python进行网络爬虫，详细讲解了分析CSDN博客网页代码及编写爬虫代码的过程，最终实现将博客文章的点赞、评论等信息存储到Excel表格中。

摘要由CSDN通过智能技术生成

hello，大家好，我是wangzirui32，今天我们来学习如何爬取CSDN博客文章列表，并将数据存储到Excel里。
开始学习吧！（Tips：本节课有点复杂，请耐心学习！）

前言

最近，我想看看自己博客文章的情况，但是又懒得一个又一个去翻，于是，我决定要使用Python爬虫来获取博客的情况。（本篇文章是针对CSDN新版博客主页的网络爬虫）

1. 网页代码分析

下面我们要爬取很多数据，于是，我用两张图来代替解释：
分析1 分析2

2. 编写代码

根据上面的分析编写代码：

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import pandas as pd
"""
pandas库安装：pip install pandas
"""
# 请求头
headers = {
   
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:85.0) Gecko/20100101 Firefox/85.0",
    "Host": "blog.csdn.net"
}

url = "https://blog.csdn.net/wangzirui32"

r = requests.get(url, headers