java 去掉字符串中的注释,java – 如何匹配注释,除非它在带引号的字符串中?...

所以我有一些字符串:

//Blah blah blach

// sdfkjlasdf

"Another //thing"

我正在使用java正则表达式替换所有具有双斜杠的行,如下所示:

theString = Pattern.compile("//(.*?)\\n", Pattern.DOTALL).matcher(theString).replaceAll("");

它在很大程度上起作用,但问题是它删除了所有的事件,我需要找到一种方法让它不删除引用的事件.我该怎么做呢?

解决方法:

您可以使用一些第三方工具(如ANTLR),而不是使用解析整个Java源文件的解析器,或者自己编写仅解析您感兴趣的部分的解析器.

ANTLR只能定义您感兴趣的令牌(当然还有令牌流可能会像多行注释和字符串和字符串文字一样).因此,您只需要定义一个正确处理这些标记的词法分析器(标记器的另一个单词).

这称为语法.在ANTLR中,这样的语法可能如下所示:

lexer grammar FuzzyJavaLexer;

options{filter=true;}

SingleLineComment

: '//' ~( '\r' | '\n' )*

;

MultiLineComment

: '/*' .* '*/'

;

StringLiteral

: '"' ( '\\' . | ~( '"' | '\\' ) )* '"'

;

CharLiteral

: '\'' ( '\\' . | ~( '\'' | '\\' ) )* '\''

;

将上述内容保存在名为FuzzyJavaLexer.g的文件中.现在download ANTLR 3.2 here并将其保存在与FuzzyJavaLexer.g文件相同的文件夹中.

执行以下命令:

java -cp antlr-3.2.jar org.antlr.Tool FuzzyJavaLexer.g

这将创建一个FuzzyJavaLexer.java源类.

当然你需要测试词法分析器,你可以通过创建一个名为FuzzyJavaLexerTest.java的文件并在其中复制下面的代码来完成:

import org.antlr.runtime.*;

public class FuzzyJavaLexerTest {

public static void main(String[] args) throws Exception {

String source =

"class Test { \n"+

" String s = \" ... \\\" // no comment \"; \n"+

" /* \n"+

" * also no comment: // foo \n"+

" */ \n"+

" char quote = '\"'; \n"+

" // yes, a comment, finally!!! \n"+

" int i = 0; // another comment \n"+

"} \n";

System.out.println("===== source =====");

System.out.println(source);

System.out.println("==================");

ANTLRStringStream in = new ANTLRStringStream(source);

FuzzyJavaLexer lexer = new FuzzyJavaLexer(in);

CommonTokenStream tokens = new CommonTokenStream(lexer);

for(Object obj : tokens.getTokens()) {

Token token = (Token)obj;

if(token.getType() == FuzzyJavaLexer.SingleLineComment) {

System.out.println("Found a SingleLineComment on line "+token.getLine()+

", starting at column "+token.getCharPositionInLine()+

", text: "+token.getText());

}

}

}

}

接下来,通过执行以下操作编译FuzzyJavaLexer.java和FuzzyJavaLexerTest.java:

javac -cp .:antlr-3.2.jar *.java

最后执行FuzzyJavaLexerTest.class文件:

// *nix/MacOS

java -cp .:antlr-3.2.jar FuzzyJavaLexerTest

要么:

// Windows

java -cp .;antlr-3.2.jar FuzzyJavaLexerTest

之后,您将看到以下内容被打印到您的控制台:

===== source =====

class Test {

String s = " ... \" // no comment ";

/*

* also no comment: // foo

*/

char quote = '"';

// yes, a comment, finally!!!

int i = 0; // another comment

}

==================

Found a SingleLineComment on line 7, starting at column 2, text: // yes, a comment, finally!!!

Found a SingleLineComment on line 8, starting at column 13, text: // another comment

很简单,嗯?

标签:java,regex,parsing,regex-negation

来源: https://codeday.me/bug/20190610/1213837.html

1.根据状态转换图直接编程 编写一个词法分析程序,它从左到右逐个字符的对源程序进行扫描,产生一个个的单词的二元式,形成二元式(记号)流文件输出。在此,词法分析程序作为单独的一遍,如下图所示。 具体任务有: (1)组织源程序的输入 (2)识别单词的类别并记录类别编号和值,形成二元式输出,得到单词流文件 (3)删除注释、空格和无用符号 (4)发现并定位词法错误,需要输出错误的位置在源程序的第几行。将错误信息输出到屏幕上。 (5)对于普通标识符和常量,分别建立标识符表和常量表(使用线性表存储),当遇到一个标识符或常量时,查找标识符表或常量表,若存在,则返回位置,否则返回0并且填写符号表或常量表。 标识符表结构:变量名,类型(整型、实型、字符型),分配的数据区地址 注:词法分析阶段只填写变量名,其它部分在语法分析、语义分析、代码生成等阶段逐步填入。 常量表结构:常量名,常量值 单词的构词规则: 字母=[A-Z a-z] 数字=[0-9] 标识符=(字母|_)(字母|数字|_)* 数字=数字(数字)*( .数字+|) 2.S语言表达式和语句说明 1.算术表达式:+、-、*、/、% 2.关系运算符:>、>=、<、<=、==、!= 3.赋值运算符:=,+=、-=、*=、/=、%= 4.变量说明:类型标识符 变量名表; 5.类型标识符:int char float 6.If语句:if 表达式then 语句 [else 语句] 7.For语句:for(表达式1;表达式2;表达式3) 语句 8.While语句:while 表达式 do 语句 9.S语言程序:由函数构成,函数不能嵌套定义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值