python 的 javalang 库【1】

javalang 是用于处理 Java 源码的纯 Python 库,目前提供了针对 Java 8 的词法分析器和解析器。
PyPI 0.13.0 | Github 0.13.0 | Java 8 语言规范

开始

import javalang
tree = javalang.parse.parse("package javalang.brewtab.com; class Test {}; class Test2 {}")

将返回一个 CompilationUnit 实例,它是树的根,可以通过遍历提取不同信息。

print(tree.package.name)
print(tree.types[0])
print(tree.types[1].name)
javalang.brewtab.com
ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None)
Test2

传递给 javalang.parse.parse() 的字符串必须代表一个完整有效的 Java 源文件。javalang.parse 模块中有其他方法可以在不提供整个编译单元的情况下解析一些较小的代码片段。

语法树

CompilationUnit 是 javalang.ast.Node 的子类,它在树中的后代也一样。javalang.tree 模块定义了不同类型的 Node 子类,每个都代表你都能在Java代码中找到的不同的语法成分。关于节点类型的更多信息,可参阅 javalang/tree.py 文件。

部分 Node 子类示例attrs
CompilationUnit(Node)“package”, “imports”, “types”
Import(Node)“path”, “static”, “wildcard”
Documented(Node)“documentation”
Declaration(Node)“modifiers”, “annotations”
TypeDeclaration(Declaration, Documented)“name”, “body”
ClassDeclaration(TypeDeclaration)“type_parameters”, “extends”, “implements”
Statement(Node)“label”
IfStatement(Statement)“condition”, “then_statement”, “else_statement”

Node 实例支持迭代 Iteration。

for path, node in tree:
    print(path, node)
() CompilationUnit(imports=[], package=PackageDeclaration(annotations=None, documentation=None, modifiers=None, name=javalang.brewtab.com), types=[ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)])
(CompilationUnit(imports=[], package=PackageDeclaration(annotations=None, documentation=None, modifiers=None, name=javalang.brewtab.com), types=[ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]),) PackageDeclaration(annotations=None, documentation=None, modifiers=None, name=javalang.brewtab.com)
(CompilationUnit(imports=[], package=PackageDeclaration(annotations=None, documentation=None, modifiers=None, name=javalang.brewtab.com), types=[ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]), [ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]) ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None)
(CompilationUnit(imports=[], package=PackageDeclaration(annotations=None, documentation=None, modifiers=None, name=javalang.brewtab.com), types=[ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]), [ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]) ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)

迭代也可以按类型过滤

for path, node in tree.filter(javalang.tree.ClassDeclaration):
    print(path, node)
(CompilationUnit(imports=[], package=PackageDeclaration(annotations=None, documentation=None, modifiers=None, name=javalang.brewtab.com), types=[ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]), [ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]) ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None)
(CompilationUnit(imports=[], package=PackageDeclaration(annotations=None, documentation=None, modifiers=None, name=javalang.brewtab.com), types=[ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]), [ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test, type_parameters=None), ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)]) ClassDeclaration(annotations=[], body=[], documentation=None, extends=None, implements=None, modifiers=set(), name=Test2, type_parameters=None)

组件

javalang.parse.parse 是个简单的方法,它为输入创建一个 token 令牌流,用给定的令牌流初始化一个新的 javalang.parser.Parser 实例,然后调用解析器的 parse() 方法,返回 CompilationUnit 。

def parse(s):
    tokens = tokenize(s)
    parser = Parser(tokens)
    return parser.parse()

这些组件也可以单独使用。

Tokenizer
标记解析器/词法分析器可以通过调用 javalang.tokenizer.tokenize 直接 invoked。

print(javalang.tokenizer.tokenize('System.out.println("Hello " + "world");'))
<generator object JavaTokenizer.tokenize at 0x000001DF22FFF4C0>

这将返回一个提供 JavaToken 对象流的 generator。其中每个令牌携带行列位置信息和值信息。令牌不是 JavaToken 的直接实例,而是标识其一般类型的子类的实例。

tokens = list(javalang.tokenizer.tokenize('System.out.println("Hello " + "world");'))
print(tokens[6].value)
print(tokens[6].position)
print(type(tokens[6]))
print(type(tokens[7]))
"Hello "
Position(line=1, column=20)
<class 'javalang.tokenizer.String'>
<class 'javalang.tokenizer.Operator'>

Parser
可以直接使用解析器解析代码片段。

tokens = javalang.tokenizer.tokenize('System.out.println("Hello " + "world");')
parser = javalang.parser.Parser(tokens)
print(parser.parse_expression())
MethodInvocation(arguments=[BinaryOperation(operandl=Literal(postfix_operators=[], prefix_operators=[], qualifier=None, selectors=[], value="Hello "), operandr=Literal(postfix_operators=[], prefix_operators=[], qualifier=None, selectors=[], value="world"), operator=+)], member=println, postfix_operators=[], prefix_operators=[], qualifier=System.out, selectors=[], type_arguments=None)

解析方法是针对增量解析而设计,因此不会在令牌流开头地方重新启动。多次调用一个解析方法将导致 JavaSyntaxError 异常,调用不正确的解析方法也会导致该异常。

tokens = javalang.tokenizer.tokenize('System.out.println("Hello " + "world");')
parser = javalang.parser.Parser(tokens)
parser.parse_type_declaration()
Traceback (most recent call last):
  File "F:/PyCharmProjects/untitled/Javalang_test03.py", line 4, in <module>
    parser.parse_type_declaration()
  File "E:\anaconda3\envs\untitled\lib\site-packages\javalang\parser.py", line 347, in parse_type_declaration
    return self.parse_class_or_interface_declaration()
  File "E:\anaconda3\envs\untitled\lib\site-packages\javalang\parser.py", line 364, in parse_class_or_interface_declaration
    self.illegal("Expected type declaration")
  File "E:\anaconda3\envs\untitled\lib\site-packages\javalang\parser.py", line 119, in illegal
    raise JavaSyntaxError(description, at)
javalang.parser.JavaSyntaxError

javalang.parse 模块为解析更常见类型的代码片段提供了简便方法。

  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
要使用Pythonjavalang获取Java代码的AST(抽象语法树),并将其按照邻接矩阵的方式存储,可以按照以下步骤进行: 1. 使用javalang解析Java代码文件,生成AST。可以使用javalang.parse.parse方法来解析Java代码文件,该方法返回的是一个javalang.ast.Node类型的对象,表示整个代码文件的AST。 2. 遍历AST,获取节点之间的连接关系,并将它们存储在邻接矩阵中。可以使用深度优先遍历(DFS)或广度优先遍历(BFS)的方式来遍历AST,获取节点之间的连接关系。在遍历AST时,可以使用一个字典来存储节点的编号和节点对象的映射关系,并使用一个二维数组来存储节点之间的连接关系。 以下是一个示例代码,演示了如何使用Pythonjavalang获取Java代码的AST,并将其按照邻接矩阵的方式存储: ```python import javalang # 读取Java代码文件 with open("Test.java", "r") as f: java_code = f.read() # 解析Java代码,生成AST tree = javalang.parse.parse(java_code) # 构造节点编号和节点对象的映射关系 node_map = {} node_id = 0 for node in tree.filter(javalang.tree.Node): node_map[node_id] = node node_id += 1 # 构造邻接矩阵 adjacency_matrix = [[0] * node_id for _ in range(node_id)] for node_id, node in node_map.items(): for child_node in node.children: child_id = list(node_map.keys())[list(node_map.values()).index(child_node)] adjacency_matrix[node_id][child_id] = 1 # 输出邻接矩阵 for row in adjacency_matrix: print(row) ``` 在上面的示例中,我们首先读取一个Java代码文件,然后使用javalang.parse.parse方法解析Java代码文件,生成AST。然后,我们遍历AST,构造节点编号和节点对象的映射关系,并使用一个二维数组来存储节点之间的连接关系。最后,我们输出邻接矩阵。 需要注意的是,上面的示例代码只是简单地将AST按照节点之间的父子关系存储在邻接矩阵中,如果需要更精细的AST分析,可以根据具体需求进行修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值