我用 Python 做了一个轻松爬取各大网站文章并输出为 Markdown 的工具！

最新推荐文章于 2024-06-13 09:37:17 发布

Python_P叔

最新推荐文章于 2024-06-13 09:37:17 发布

阅读量619

点赞数 1

文章标签： python markdown

本文链接：https://blog.csdn.net/Saki_Python/article/details/132610529

版权

本文介绍了作者开发的一个Python爬虫工具，用于从各大技术网站抓取文章并转换为Markdown格式，以备本地保存。文章详细阐述了需求分析、技术选型（如Python的request、BeautifulSoup和html2text库）、实现方案、优化措施，以及如何通过命令行运行该工具。最后，作者分享了工具的实际效果和开源地址。

摘要由CSDN通过智能技术生成

前言

大家好，我是「周三不Coding」。

最近摸鱼看技术文章的时候，突然想到了两个需求，想与大家分享一下：

爬取各大技术网站的文章，转化为 Markdown 格式，防止文章由于不明原因下架。这样可以在本地保存一些高质量文章。
整理自己过去发布的文章。（我之前写的一些文章并没有在本地备份）

说干就干，我用了几个小时，编写并发布了一个文章爬取工具：Article Crawler，

接下来，我给大家分享一下我的制作过程！

其中包含详细的 README 文档

Github 地址：github.com/ltyzzzxxx/a…

PyPi 地址：pypi.org/project/art…

需求分析与技术选型

对于爬取类的需求来说，我毫不犹豫地选择了 Python 来编写代码，毕竟一提到爬虫，大家第一反应就是 Python。它确实很方便，提供了很多方便快捷的包。

我们首先拆解一下需求，来确定最终需要使用的 Python 包。

从某个网站中爬取文章，需要定位文章的位置。网站中除了文章信息之外，可能还有推荐信息、作者信息、广告信息等。因此，我们需要将整个网站内容爬取下来，并从中搜索得出文章的内容。
将 HTML 文章内容转换 Markdown 格式，并输出到本地指定目录中。

对于第一个需求，我们使用 request 与 BeautifulSoup 包。

使用 request 包向指定网站发送请求，获取其 HTML 内容。
使用 BeautifulSoup 包在指定 HTML 内容中，查找对应的文章内容。

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航 / 查找 / 修改文档的方式。Beautiful Soup 会帮你节省数小时甚至数天的工作时间。

对于第二个需求，我们使用 html2text 包。

使用 html2text 包，将指定的 HTML 文章内容，渲染为对应的 Markdown 格式。

总结技术栈如下：

技术栈	作用
request	向指定网站发送请求，获取 HTML 内容
BeautifulSoup (bs4)	快速从 HTML 内容中依据指定条件查找内容
html2text	将指定的 HTML 内容染为 Markdown 格式

实现方案

实现流程图如下：

whiteboard_exported_image (19).png

对于这一系列流程，我将其抽象为一个类 ArticleCrawler。

具体代码位于 article_crawler/article_crawler.py 文件中

其初始化 __init__ 方法如下：

def __init__(self, url, output_folder, tag, class_, id=''):
    self.url = url

最低0.47元/天解锁文章

Python_P叔

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
我用 Python 做了一个轻松爬取各大网站文章并输出为 Markdown 的工具！

大家好，我是「周三不Coding」。爬取各大技术网站的文章，转化为 Markdown 格式，防止文章由于不明原因下架。这样可以在本地保存一些高质量文章。整理自己过去发布的文章。（我之前写的一些文章并没有在本地备份）说干就干，我用了几个小时，编写并发布了一个文章爬取工具：Article Crawler，接下来，我给大家分享一下我的制作过程！其中包含详细的 README 文档。
复制链接

扫一扫