本文用几种情况讨论了正则表达式循环消除优化、Python中的点通配模式、整行读出方法。
本文源于一个Non-Trivial程序,从蛋白质语料库中提取出蛋白质词组。如第一行中的<prot><pro>bradykinin B(1)</prot><prot><pro>bradykinin B(1)</prot> 就是一个带嵌套的蛋白质词组的例子。为了说明问题,我在<prot>bradykinin B(1)</prot> 中人为加入了干扰因素<prot><pro>bradykinin B(1)</prot> 。
输出结果:
*************************************不换行模式**************************************
-----------------------------------只考虑最简单的情况------------------------------------
>>>Result(s):
p38
-------------------------------考虑<prot>中可以有'<'的情况-------------------------------
>>>Result(s):
p38
<pro>bradykinin B(1)
-----------------------------考虑<prot>中可以有'<'的情况,并优化-----------------------------
>>>Result(s):
p38
<pro>bradykinin B(1)
********************************************************************************
**************************************换行模式**************************************
-----------------------------------只考虑最简单的情况------------------------------------
>>>Result(s):
p38
---------------------------非点通配模式:考虑<prot>中可以有'<'的情况----------------------------
>>>Result(s):
----------------------------点通配模式:考虑<prot>中可以有'<'的情况----------------------------
>>>Result(s):
p38
<pro>bradykinin B(1)
-----------------------------考虑<prot>中可以有'<'的情况,并优化-----------------------------
>>>Result(s):
p38
<pro>bradykinin B(1)
>>>