您还可以在lexer中跟踪第一行前面有多少ident项,并将其传递给解析器。最有趣的部分是尝试正确地将它传递给解析器:)如果您的解析器使用lookahead(在这里我的意思是解析器在真正匹配一个标记之前可能会查询变量数量的标记),那么尝试将它传递给一个全局变量似乎是一个非常糟糕的主意(因为lexer可能会在下一行滑动并更改indent的值)计数器,而解析器仍在尝试分析上一行)。在其他许多情况下,global也是邪恶的;)用indent counter以某种方式标记第一行的“real”标记更为合理。如果你不能很容易地从语法分析器中获取数据(或者说我不能很容易地把这些标记放在数据行上,但我不能很容易地把这些标记放在语法分析器上),数组,其中源代码中的每一行作为索引,缩进值作为元素值)似乎足够了。这种方法的一个缺点是增加了解析器的复杂性,它需要区分ident值并基于它更改其行为。类似于用于JavaCC的LOOKAHEAD({yourConditionInJava})的东西在这里可能有用,但这是一个非常好的主意。在你的方法中有很多额外的标记似乎不那么邪恶:)
作为另一种选择,我建议混合使用这两种方法。只有当indent counter在下一行更改其值时,才能生成其他标记。它就像人造的开始和结束标记。通过这种方式,您可以减少流中从lexer输入解析器的“人工”标记的数量。只有你的解析器语法应该被调整以理解额外的标记。。。在
我没有尝试过这种方法(对这种语言解析没有实际经验),只是分享了我对可能的解决方案的想法。检查这类语言的已经构建的解析器可能对您很有价值。开源是你的朋友;)