爬虫LeetCode题目，将HTML转换为Markdown文本

最新推荐文章于 2024-08-02 13:28:27 发布

DengDengLei

最新推荐文章于 2024-08-02 13:28:27 发布

阅读量2.7k

点赞数 1

分类专栏： JAVA学习文章标签： HTML Markdown 爬虫 LeetCode

本文链接：https://blog.csdn.net/egg1996911/article/details/81572480

版权

本文介绍如何通过爬虫获取LeetCode题目的HTML内容，并利用jsoup将其转换为Markdown格式，用于构建项目README.md。内容包括爬取HTML、解析HTML到Markdown的方法及运行效果展示。

摘要由CSDN通过智能技术生成

在爬取LeetCode题目时，需要获取题目说明的Markdown格式内容从而建立项目的README.md文件，因此需要将获取的题目说明的HTML文本转换为Markdown文本。

1. 爬虫获取题目说明的HTML内容：

打开https://leetcode-cn.com/problems/to-lower-case/description/，可以看见题目详情，如下图所示：
这里写图片描述

获取该部分的HTML代码（爬虫教程可参考我的另一篇爬虫入门博客https://blog.csdn.net/egg1996911/article/details/79461063）：

<p>实现函数 ToLowerCase()，该函数接收一个字符串参数 str，并将该字符串中的大写字母转换成小写字母，之后返回新的字符串。</p>

<p>&nbsp;</p>

<p><strong>示例 1：</strong></p>

<pre><strong>输入: </strong>"Hello"
<strong>输出: </strong>"hello"</pre>

<p><strong>示例 2：</strong></p>

<pre><strong>输入: </strong>"here"
<strong>输出: </strong>"here"</pre>

<p><strong>示例</strong><strong>&nbsp;3：</strong></p>