原文
Word文档的内容,需要背转换为Asciidoc。以下是我发现最有效的步骤:
1. 将Word文档保存为HTML
2. 编码为UTF-8
3. 使用pandoc将HTML转换为AsciiDoc
4. 使用Sublime Text 2搜索和替换(使用一些正则表达式)去除疯狂的东西
5. 使用Sublime Text 2执行任何剩余的格式
将Word文档保存为HTML
在Word中打开文档,然后另存为网页。保存时选择“仅保存显示信息到HTML”选项。从Word退出。
编码为UTF-8
在Sublime Text 2中打开html文件。重新打开UTF-8编码并保存文件:
Sublime Text 2重新打开编码
如果不重新编码为UTF-8,则下一步将失败并显示错误:
pandoc:无法解码字节’\ x6f’:Data.Text.Encoding.decodeUtf8:无效的UTF-8流
使用Pandoc将HTML转换为AsciiDoc
运行Pandoc。例如,以下命令将AsciiDoc文件file.asc转换为ConventionSheet.htm:
pandoc -f html -t asciidoc -o file.asc ConventionSheet.htm
使用Sublime Text 2搜索和替换(使用一些正则表达式)去除疯狂的东西
奇怪的单引号需要去:
Sublime Text 2用单引号替换反引号,如果在Word中进行了审核,则审阅者的评论和更改可能会出现在HTML中。使用搜索删除这些,并在搜索字段中替换以下正则表达式:
\[line-through\]\*(.+)\*
当匹配行交叉线断裂时,可以使用?s正则表达式中的单行选项()进行搜索和替换:
(?s)\[line-through\]\*.(.*?)\*
使用Sublime Text 2执行任何剩余的AsciiDoc格式
在文档中等间隔任何正则表达式或其他特殊字符(这些将导致AsciiDoc解析器的问题)。
根据需要编辑AsciiDoc文档!请注意,GitHub现在本地显示AsciiDoc文件(在幕后使用AsciiDoctor),就像Markdown一样。