题目描述
见https://leetcode-cn.com/problems/remove-comments/
分析
我们需要逐行遍历源代码。由于块注释的存在,因此每行源代码有两种情况,分别是:在注释内和不在注释内。下面分情况讨论:
- 如果我们遇到注释块符号/*,而我们不在注释中,说明当前遇到的/*是注释块开始的地方,那么我们将跳过接下来的两个字符,并将状态更改为在注释中。
- 如果我们遇到注释块符号*/,并且我们在注释中,说明当前遇到的*/是注释块结束的地方,那么我们将跳过接下来的两个字符并将状态更改为不在注释中。
- 如果我们遇到行注释//,且我们不在注释中,说明当前遇到的//是行注释开始的地方,那么我们将忽略该行剩余内容。
- 如果我们遇到的不是注释开始符号(/*或//),且我们不在注释中,那么我们将记录所遇到的字符。
- 在每行代码遍历完成后,如果我们不在注释中,且删除注释后得到的新行不是空字符串,我们将记录该行,然后循环遍历下一行。
注意,leetcode上的输入source是一个列表,列表中每个元素代表一行源码,即这里已经帮我们分好行了。有时source是一个字符串,行与行之间用\n分隔,因此,直接source.split('\n')即可得到列表,然后再逐行遍历源代码即可。
编程实现
class Solution(object):
"""
不必考虑/*块注释嵌套的问题,因为在C/C++的注释语法中,
/*
/*
*/
*/
只会认为
/*
/*
*/
是块注释,因此,在第一个/*开始后,只要遇到第一个*/,块注释即结束。
"""
def removeComments(self, source):
"""
:type source: List[str]
:rtype: List[str]
"""
in_block = False
result = []
for line in source:
i = 0
if not in_block:
new_line = []
while i < len(line):
"""
line[i:i+2]不必担心越界问题,因为对于s='/*/', s[0:10]也是可以正常执行的,而s[3]就会有越界问题
"""
if line[i:i+2] == '/*' and not in_block:
in_block = True
i = i+2 # 如果是i = i+1, 会有题目中说的重叠情形,例如'/*/'
continue
if line[i:i+2] == '*/' and in_block:
in_block = False
i = i+2 # 如果是i = i+1, 会将*/中的/也认为是源码
continue
if line[i:i+2] == '//' and not in_block:
break
if not in_block:
new_line.append(line[i])
i = i+1
"""
下面的if条件判断中,需要加上not in_block,这是为了应对以下情况:
输入: source = ["a/*comment", "line", "more_comment*/b"]
输出: ["ab"]
而且与前面的
if not in_block:
new_line = []
刚好呼应。
"""
if len(new_line)>0 and not in_block:
result.append("".join(new_line))
return result
关键点分析
代码中已经将关键点都注释出来了,这里再详细列出一下
- 不必考虑/*块注释嵌套的问题,因为在C/C++的注释语法中,在第一个/*开始后,只要遇到第一个*/,块注释即结束。第一次做这道题时,由于C/C++已经好久没用过了,所以还特地考虑了/*块注释嵌套的问题,实际上根本没有必要。
- python中,字符串可以看成是一个列表,采用s[i:j]的形式进行索引时,不会有越界问题,只有s[i]才会有越界问题,这属于基础内容,个人在这方面还有待加强啊。
- 每次遇到第一个'/*'和第一个'*/'后,i都要+2,而不是+1,原因可见代码中的注释。
- 在判断是否需要将"".join(new_line)加入到result中时,需要加上not in_block的判断,这是为了应对以下情况:
输入: source = ["a/*comment", "line", "more_comment*/b"]
输出: ["ab"]
这里source中,虽然"a"和"b"处于不同行,但是删除注释后,"a"和"b"是同一行,所以,返回的是["ab"],而不是["a", "b"]。