问题描述
Markdown 是一种很流行的轻量级标记语言(lightweight markup language),广泛用于撰写带格式的文档。例如以下这段文本就是用 Markdown 的语法写成的:
这些用 Markdown 写成的文本,尽管本身是纯文本格式,然而读者可以很容易地看出它的文档结构。同时,还有很多工具可以自动把 Markdown 文本转换成 HTML 甚至 Word、PDF 等格式,取得更好的排版效果。例如上面这段文本通过转化得到的 HTML 代码如下所示:
本题要求由你来编写一个 Markdown 的转换工具,完成 Markdown 文本到 HTML 代码的转换工作。简化起见,本题定义的 Markdown 语法规则和转换规则描述如下:
●区块:区块是文档的顶级结构。本题的 Markdown 语法有 3 种区块格式。在输入中,相邻两个区块之间用一个或多个空行分隔。输出时删除所有分隔区块的空行。
○段落:一般情况下,连续多行输入构成一个段落。段落的转换规则是在段落的第一行行首插入 <p>
,在最后一行行末插入 </p>
。
○标题:每个标题区块只有一行,由若干个 #
开头,接着一个或多个空格,然后是标题内容,直到行末。#
的个数决定了标题的等级。转换时,# Heading
转换为 <h1>Heading</h1>
,## Heading
转换为 <h2>Heading</h2>
,以此类推。标题等级最深为 6。
○无序列表:无序列表由若干行组成,每行由 *
开头,接着一个或多个空格,然后是列表项目的文字,直到行末。转换时,在最开始插入一行 <ul>
,最后插入一行 </ul>
;对于每行,* Item
转换为 <li>Item</li>
。本题中的无序列表只有一层,不会出现缩进的情况。
●行内:对于区块中的内容,有以下两种行内结构。
○强调:_Text_
转换为 <em>Text</em>
。强调不会出现嵌套,每行中 _
的个数一定是偶数,且不会连续相邻。注意 _Text_
的前后不一定是空格字符。
○超级链接:[Text](Link)
转换为 <a href="Link">Text</a>
。超级链接和强调可以相互嵌套,但每种格式不会超过一层。
输入格式
输入由若干行组成,表示一个用本题规定的 Markdown 语法撰写的文档。
输出格式
输出由若干行组成,表示输入的 Markdown 文档转换成产生的 HTML 代码。
样例输入
# Hello
Hello, world!
样例输出
<h1>Hello</h1>
<p>Hello, world!</p>
评测用例规模与约定
本题的测试点满足以下条件:
●本题每个测试点的输入数据所包含的行数都不超过100,每行字符的个数(包括行末换行符)都不超过100。
●除了换行符之外,所有字符都是 ASCII 码 32 至 126 的可打印字符。
●每行行首和行末都不会出现空格字符。
●输入数据除了 Markdown 语法所需,内容中不会出现 #
、*
、_
、[
、]
、(
、)
、<
、>
、&
这些字符。
●所有测试点均符合题目所规定的 Markdown 语法,你的程序不需要考虑语法错误的情况。
每个测试点包含的语法规则如下表所示,其中“√”表示包含,“×”表示不包含。
提示
由于本题要将输入数据当做一个文本文件来处理,要逐行读取直到文件结束,C/C++、Java 语言的用户可以参考以下代码片段来读取输入内容。
注意:这个题用正则表达式处理起来容易一点,我的代码也是用正则表达式处理的,如果不会正则表达式且不准备学正则表达式的请移步。
思路:对于按顺序输入的每行,首先判断该行是不是空行,如果是空行,需要是否需要加</p>或</h>,然后判断是不是段落(根据有无*,#判断),如果是段落,需要判断是不是段落的起始行,如果是起始行,在段落开始处加<p>,再判断是不是标题和列表,如果是进行处理,然后判断是不是链接和强调。如何判断的正则表达式我代码中体现的很明显。
这个题需要注意标题和列表中也可能有 强调标签和链接标签,所以不能在判断完是标题或是列表以后就不判断该行中有无强调和链接
import java.util.ArrayList;
import java.util.List;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class C {
static List<String> result;
public static void main(String[] args) {
// TODO Auto-generated method stub
Scanner sc = new Scanner(System.in);
result = new ArrayList<>();
String line = null;
while (sc.hasNextLine()) {
line = sc.nextLine();
if (line.equals("000")) {
break;
}
dealLine(line);//处理单行
}
// 当文章结束时,判断是否需要在文章末尾加</p>或</ul>
String preLine = result.get(result.size() - 1);
if (result.size() != 0 && preLine.trim().length() != 0 && !preLine.contains("<h") && !preLine.contains("<li>")
&& !preLine.contains("<ul>")) {
if (!preLine.endsWith("</p>")) {
result.set(result.size() - 1, preLine + "</p>");
}
}
if (result.size() != 0 && preLine.length() >= 4 && preLine.substring(0, 4).equals("<li>")) {
result.add("</ul>");
}
//过滤掉所有空行,逐行输出
for (int i = 0; i < result.size(); i++) {
if (result.get(i).trim().length() == 0) {
continue;
}
System.out.println(result.get(i));
}
}
private static void dealLine(String line) {
// 如果是空行,判断上一行是不是一个段落并且是否已经加上段落的结束标识符
// 如果是空行,判断上一行是不是一个无序列表并且是否已经加上了无序列表的标签段落的结束标识符
if (line.trim().length() == 0) {
String preLine = result.get(result.size() - 1);
if (result.size() != 0 && preLine.trim().length() != 0 && !preLine.contains("<h")
&& !preLine.contains("<li>") && !preLine.contains("<ul>")) {
if (!preLine.endsWith("</p>")) {
result.set(result.size() - 1, preLine + "</p>");
}
}
if (result.size() != 0 && preLine.length() >= 4 && preLine.substring(0, 4).equals("<li>")) {
result.add("</ul>");
}
result.add(line);
return;
}
// 如果是段落,判断是否需要在初始位置加</p>
if (!line.contains("#") && !line.contains("*")) {
if (result.size() != 0) {
String perLine = result.get(result.size() - 1);
if (perLine.trim().length() == 0) {
line = "<p>" + line;
}
} else {
line = "<p>" + line;
}
}
//处理标题
if (line.length() > 0 && line.charAt(0) == '#') {
Pattern headPattern = Pattern.compile("(#*)( *)(.*)");
Matcher headMatcher = headPattern.matcher(line);
headMatcher.find();
line = "<h" + headMatcher.group(1).length() + ">" + headMatcher.group(3) + "</h"
+ headMatcher.group(1).length() + ">";
// result.add(line);
// return ;
}
//处理列表
if (line.length() > 0 && line.charAt(0) == '*') {
Pattern listPattern = Pattern.compile("\\*( *)(.*)");
Matcher listMatcher = listPattern.matcher(line);
listMatcher.find();
line = "<li>" + listMatcher.group(2) + "</li>";
if (result.size() != 0) {
if (!result.get(result.size() - 1).contains("<li>")) {
result.add("<ul>");
}
// result.add(line);
} else {
result.add("<ul>");
// result.add(line);
}
// return ;
}
// 处理链接
Pattern linkpattern = Pattern.compile("(.*?)\\[(.*?)\\]\\((.*?)\\)([^\\[]*)");
Matcher linkmatch = linkpattern.matcher(line);
String temp = line;
line = "";
while (linkmatch.find()) {
line = line + linkmatch.group(1) + "<a href=\"" + linkmatch.group(3) + "\">" + linkmatch.group(2) + "</a>"
+ linkmatch.group(4);
}
if (line.length() == 0) {
line = temp;
}
// 处理强调
Pattern underlinePatter = Pattern.compile("([^_]*)_(.*?)_([^_]*)");
Matcher underlineMatch = underlinePatter.matcher(line);
temp = line;
line = "";
while (underlineMatch.find()) {
line = line + underlineMatch.group(1) + "<em>" + underlineMatch.group(2) + "</em>"
+ underlineMatch.group(3);
}
if (line.length() == 0) {
line = temp;
}
result.add(line);
}
}
如有不足,欢迎指正!!!