正则表达式 python 匹配结尾是时间,正则表达式匹配开始()和匹配结束()Python示例...

努力掌握正则表达式,尤其是它们的match.start()和{}方法。在

使用此代码时(找到here):Token = collections.namedtuple('Token', ['typ', 'value', 'line', 'column'])

def tokenize(code):

keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}

token_specification = [

('NUMBER', r'\d+(\.\d*)?'), # Integer or decimal number

('ASSIGN', r':='), # Assignment operator

('END', r';'), # Statement terminator

('ID', r'[A-Za-z]+'), # Identifiers

('OP', r'[+\-*/]'), # Arithmetic operators

('NEWLINE', r'\n'), # Line endings

('SKIP', r'[ \t]+'), # Skip over spaces and tabs

('MISMATCH',r'.'), # Any other character

]

tok_regex = '|'.join('(?P%s)' % pair for pair in token_specification)

line_num = 1

line_start = 0

for mo in re.finditer(tok_regex, code):

kind = mo.lastgroup

value = mo.group(kind)

if kind == 'NEWLINE':

line_start = mo.end()

line_num += 1

elif kind == 'SKIP':

pass

elif kind == 'MISMATCH':

raise RuntimeError('%r unexpected on line %d' % (value, line_num))

else:

if kind == 'ID' and value in keywords:

kind = value

column = mo.start() - line_start

yield Token(kind, value, line_num, column)

statements = '''

IF quantity THEN

total := total + price * quantity;

tax := price * 0.05;

ENDIF;

'''

for token in tokenize(statements):

print(token)

我无法理解使用mo.end()和mo.start()计算行和列时的用法和逻辑。例如,如果我让NEWLINE和SKIP同时产生Token输出,那么列索引就会完全混乱。

尝试使用mo.end()重新计算列索引以适应示例中提到的这种情况,但失败了。

任何想法、示例代码和/或解释都会很棒。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值