Turndown 项目教程
项目介绍
Turndown 是一个用 JavaScript 编写的 HTML 到 Markdown 转换器。它旨在与 CommonMark 规范兼容,并提供了多种选项来定制输出样式。Turndown 通过一组正则表达式来转义潜在的 Markdown 语法,从而避免了解析每个 HTML 元素内容的复杂性和性能影响。
项目快速启动
安装
你可以通过 npm 或直接在浏览器中使用 Turndown。
通过 npm 安装
npm install turndown
在浏览器中使用
<script src="https://unpkg.com/turndown/dist/turndown.js"></script>
基本使用
以下是一个简单的示例,展示如何将 HTML 转换为 Markdown。
// 使用 npm 安装时
// const TurndownService = require('turndown');
// 在浏览器中
var TurndownService = window.TurndownService;
var turndownService = new TurndownService();
var markdown = turndownService.turndown('<h1>Hello world</h1>');
console.log(markdown); // 输出: # Hello world
应用案例和最佳实践
自定义规则
你可以通过添加自定义规则来扩展 Turndown 的功能。例如,如果你想将 <del>
标签转换为 Markdown 的删除线语法,可以这样做:
turndownService.addRule('del', {
filter: ['del'],
replacement: function (content) {
return '~~' + content + '~~';
}
});
var markdown = turndownService.turndown('<p>Hello <del>world</del></p>');
console.log(markdown); // 输出: Hello ~~world~~
保留特定元素
默认情况下,Turndown 不会保留任何元素。你可以通过 keep
方法来指定需要保留的元素:
turndownService.keep(['del', 'ins']);
var markdown = turndownService.turndown('<p>Hello <del>world</del><ins>World</ins></p>');
console.log(markdown); // 输出: Hello <del>world</del><ins>World</ins>
典型生态项目
Turndown 作为一个 HTML 到 Markdown 的转换器,可以与其他文本处理工具和库结合使用,例如:
- Remark: 一个强大的 Markdown 处理器,可以与 Turndown 结合使用来处理和转换 Markdown 内容。
- Marked: 一个快速的 Markdown 解析器和编译器,可以与 Turndown 结合使用来实现双向转换。
- Pandoc: 一个通用的文档转换工具,支持多种格式,包括 Markdown 和 HTML。Turndown 可以作为 Pandoc 的补充工具,提供更细粒度的 HTML 到 Markdown 转换功能。
通过这些生态项目的结合使用,你可以构建更复杂和强大的文本处理流程。