python正则表达式取中间字符串_正则表达式如何获取中间字符串

如果问题真的是“这个表达有什么问题?”,答案如下:您试图将换行符与.*?匹配。您需要(?s)才能使其工作。在

在正则表达式的中间有显式的空格和换行符,它们在源文本中没有任何对应的字符。您需要(?x)才能使其工作。在

这可能不是所有的表达式都错了。但是只要添加(?sx),将其转换为原始字符串(因为我不相信自己能正确地混合使用Python引用和regex引用),然后删除\n就可以得到这样的结果:r'(?sx)(\\problem{(.*?)}? \\subproblem{(.*?)} (.*?)) (\\problem|\\subproblem|\\end)'

它返回2个匹配项而不是0,这可能是对正则表达式的最小更改。在

但是,如果问题是“如何解析它?”,而不是“我现有的尝试有什么问题?”,我认为impl的解决方案更有意义(我也同意使用regex解析TeX通常是个坏主意的观点),或者,更好的是,像Regexident那样分两步来完成。在if using regex to parse TeX is not good idea, then what method would you suggest to parse TeX?

首先,一般来说,如果我不能自己编写正则表达式来解决问题,我就不想用正则表达式来解决它,因为几个月后我将很难解决它。有时我把它分解成子表达式,或者使用(?x)并用注释加载它,但通常我会寻找另一种方法。在

更重要的是,如果您有一个真正的解析器,它可以使用您的语言并为您提供一个树(或任何合适的树),您可以像使用etree一样进行漫游和搜索,那么您在处理该语言时遇到的每个问题都有90%的解决方案。一个快速和肮脏的regex(尤其是你不能自己写的)只能让你10%的方法来解决下一个问题。通常,如果我今天有问题,在接下来的几个月里我会有更多的问题。在

那么,什么是Python中TeX的好解析器呢?老实说,我不知道。我知道scipy/matplotlib有一些东西能做到这一点,所以我可能会先看看那里。除此之外,看看谷歌,PyPI,也许还有tex.stackexchange.com网站. 在搜索中首先出现的是^{}和{a2}。我不知道它们有多好,也不知道它们是否适合您的用例,但浏览教程并找出答案应该不会花太长时间。在

如果结果是没有什么东西,而最终是我自己写的东西,比如^{}vs.regex,那么这是一个更艰难的选择。在某些语言中,只定义您关心的子集并将其余部分保留为巨大的未解释标记非常容易,在这种情况下,真正的解析器将与regex一样容易,所以您最好还是这样做。在其他语言中,你必须先处理一半的语法才能做任何有用的事情,所以我甚至不会尝试。我得花点时间考虑一下,在决定该走哪条路之前,尝试两种方法。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值