爬取CSDN专栏文章到本地,并保存为html、pdf、md格式

本文介绍了如何使用Python爬取CSDN的专栏文章并将其保存为HTML、PDF和MD格式。通过requests、bs4和相关库,实现了文章内容的获取、解析和转换。提供了代码思路和示例,代码已上传至Gitee。
摘要由CSDN通过智能技术生成

前言

  • 突然想爬取CSDN的专栏文章到本地保存了,为了影响小一点,特地挑选CSDN的首页进行展示。
  • 综合资讯这一测试点是什么找到的呢?就是点击下图的热点文章,然后跳转到具体文章

在这里插入图片描述
,然后再点击专栏文章,就进入了
在这里插入图片描述

废话少说,直接上代码

  • 用面向对象的思维实现了代码

  • 代码思路放在了代码注释里面

  • 用到了requests、bs4等主流接口

  • 剩下的就是,希望大家有空基于这个继续开发完善,哈哈哈哈!!!

  • 此代码和实现内容都已经打包上传只Gitee,可以点击查看

    “”"
    @Author:survive
    @Blog(个人博客地址): https://blog.csdn.net/haojie_duan

    @File:csdn.py.py
    @Time:2022/2/10 8:49

    @Motto:我不知道将去何方,但我已在路上。——宫崎骏《千与千寻》

    代码思路:
    1.确定目标需求:将csdn文章内容保存成 html、PDF、md格式
    - 1.1首先保存为html格式:获取列表页中所有的文章ur1地址,请求文章ur1地址获取我们需要的文章内容
    - 1.2 通过 wkhtmitopdf.exe把html文件转换成PDF文件
    - 1.3 通过 wkhtmitopdf.exe把html文件转换成md文件

    2.请求ur1获取网页源代码
    3.解析数据,提取自己想要内容
    4.保存数据
    5.转换数

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值