python最长匹配_匹配Python中最长的子字符串

(好吧,你澄清了大部分你想要的。让我重申一下,然后澄清我在下面列出的仍然不清楚的要点。。。另外,把我给你看的入门代码改编一下,把结果发给我们。)

您希望逐行、不区分大小写地搜索一对匹配模式中每一个的最长连续匹配。所有的模式似乎都是不相交的(patternX和patternY不可能匹配,因为它们使用不同的短语,例如不能同时匹配“额叶”和“前额叶皮层”)。在

您的模式是以一系列对的形式提供的,('dom','rang'),=>让我们通过它们的下标[0]和[1来引用它们,您可以使用字符串.拆分('\t')来获取它。)

重要的是匹配线必须匹配dom和rang模式(全部或部分)。

顺序是独立的,因此我们可以匹配rang然后dom,反之亦然=>每行使用2个单独的正则表达式,并测试d和r是否匹配。在

模式有可选部分,在括号中=>所以只需使用(optionaltext)?语法将其写入/转换为regex语法,例如:re.compile('Frontallobes of (leftside)? the brain', re.IGNORECASE)

返回值应该是迄今为止子字符串匹配最长的字符串缓冲区。在

现在有几件事需要澄清-请编辑您的问题,解释如下:如果找到任何一对模式的完全匹配,则返回该值。在

如果找不到任何完全匹配项,则搜索两个模式对的部分匹配项。其中“部分匹配”是指模式中“最多的单词”或“单词的最高比例(%)”?假设我们排除了对单词“the”的伪匹配,在这种情况下,我们只需从搜索模式中省略“the”,就不会损失任何内容,那么这就保证了与任何模式的所有部分匹配都是有意义的。在

我们评分部分匹配(不知何故),例如“包含模式X中的大多数单词”或“包含模式X中最高百分比的单词”。我们应该对所有模式都这样做,然后返回得分最高的模式。你需要考虑一下,匹配两个5字模式的单词(40%)是否更好,比如“梦见”,还是2个单词中的1个(50%),例如“前额而不是皮层”?我们如何打破关系等?如果我们只匹配“睡眠”而不匹配其他内容,会发生什么?在

以上每一个问题都会影响解决方案,所以您需要为我们解答。当你只需要一些简单的东西时,写几页代码来解决最一般的情况是没有意义的。

一般来说,这被称为“NLP”(自然语言处理)。你可能最终会使用NLP库。在

到目前为止,准则的总体结构听起来像:import re

# normally, read your input directly from file, but this allows us to test:

input = """The pons also contains the sleep paralysis center of the brain as well as generating the dreams of REM sleep.

The optic tract is a part of the visual system in the brain.

The inferior frontal gyrus is a gyrus of the frontal lobe of the human brain.

The prefrontal cortex (PFC) is the anterior part of the frontallobes of the brain, lying in front of the motor and premotor areas.

There are three possible ways to define the prefrontal cortex as the granular frontal cortex as that part of the frontal cortex whose electrical stimulation does not evoke movements.

This allowed the establishment of homologies despite the lack of a granular frontal cortex in nonprimates.

Modern tracing studies have shown that projections of the mediodorsal nucleus of the thalamus are not restricted to the granular frontal cortex in primates.

""".split('\n')

patterns = [

('(dreams of REM (Geo)? sleep)', '(sleep paralysis)'),

('(frontal lobe)', '(inferior frontal gyrus)'),

('(prefrontal cortex)', '(frontallobes of (leftside )?(the )?brain)'),

('(modern tract)', '(probably mediodorsal nucleus)') ]

# Compile the patterns as regexes

patterns = [ (re.compile(dstr),re.compile(rstr)) for (dstr,rstr) in patterns ]

def longest(t):

"""Get the longest from a tuple of strings."""

l = list(t) # tuples can't be sorted (immutable), so convert to list...

l.sort(key=len,reverse=True)

return l[0]

def custommatch(line):

for (d,r) in patterns:

# If got full match to both (d,r), return it immediately...

(dm,rm) = (d.findall(line), r.findall(line))

# Slight design problem: we get tuples like: [('frontallobes of the brain', '', 'the ')]

#... so return the longest match strings for each of dm,rm

if dm and rm: # must match both dom & rang

return [longest(dm), longest(rm)]

# else score any partial matches to (d,r) - how exactly?

# TBD...

else:

# We got here because we only have partial matches (or none)

# TBD: return the 'highest-scoring' partial match

return ('TBD... partial match')

for line in input:

print custommatch(line)

在您当前提供的7行输入上运行可以得到:

^{pr2}$

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
完整版:https://download.csdn.net/download/qq_27595745/89522468 【课程大纲】 1-1 什么是java 1-2 认识java语言 1-3 java平台的体系结构 1-4 java SE环境安装和配置 2-1 java程序简介 2-2 计算机的程序 2-3 java程序 2-4 java类库组织结构和文档 2-5 java虚拟机简介 2-6 java的垃圾回收器 2-7 java上机练习 3-1 java语言基础入门 3-2 数据的分类 3-3 标识符、关键字和常量 3-4 运算符 3-5 表达式 3-6 顺序结构和选择结构 3-7 循环语句 3-8 跳转语句 3-9 MyEclipse工具介绍 3-10 java基础知识章节练习 4-1 一维数组 4-2 数组应用 4-3 多维数组 4-4 排序算法 4-5 增强for循环 4-6 数组和排序算法章节练习 5-0 抽象和封装 5-1 面向过程的设计思想 5-2 面向对象的设计思想 5-3 抽象 5-4 封装 5-5 属性 5-6 方法的定义 5-7 this关键字 5-8 javaBean 5-9 包 package 5-10 抽象和封装章节练习 6-0 继承和多态 6-1 继承 6-2 object类 6-3 多态 6-4 访问修饰符 6-5 static修饰符 6-6 final修饰符 6-7 abstract修饰符 6-8 接口 6-9 继承和多态 章节练习 7-1 面向对象的分析与设计简介 7-2 对象模型建立 7-3 类之间的关系 7-4 软件的可维护与复用设计原则 7-5 面向对象的设计与分析 章节练习 8-1 内部类与包装器 8-2 对象包装器 8-3 装箱和拆箱 8-4 练习题 9-1 常用类介绍 9-2 StringBuffer和String Builder类 9-3 Rintime类的使用 9-4 日期类简介 9-5 java程序国际化的实现 9-6 Random类和Math类 9-7 枚举 9-8 练习题 10-1 java异常处理 10-2 认识异常 10-3 使用try和catch捕获异常 10-4 使用throw和throws引发异常 10-5 finally关键字 10-6 getMessage和printStackTrace方法 10-7 异常分类 10-8 自定义异常类 10-9 练习题 11-1 Java集合框架和泛型机制 11-2 Collection接口 11-3 Set接口实现类 11-4 List接口实现类 11-5 Map接口 11-6 Collections类 11-7 泛型概述 11-8 练习题 12-1 多线程 12-2 线程的生命周期 12-3 线程的调度和优先级 12-4 线程的同步 12-5 集合类的同步问题 12-6 用Timer类调度任务 12-7 练习题 13-1 Java IO 13-2 Java IO原理 13-3 流类的结构 13-4 文件流 13-5 缓冲流 13-6 转换流 13-7 数据流 13-8 打印流 13-9 对象流 13-10 随机存取文件流 13-11 zip文件流 13-12 练习题 14-1 图形用户界面设计 14-2 事件处理机制 14-3 AWT常用组件 14-4 swing简介 14-5 可视化开发swing组件 14-6 声音的播放和处理 14-7 2D图形的绘制 14-8 练习题 15-1 反射 15-2 使用Java反射机制 15-3 反射与动态代理 15-4 练习题 16-1 Java标注 16-2 JDK内置的基本标注类型 16-3 自定义标注类型 16-4 对标注进行标注 16-5 利用反射获取标注信息 16-6 练习题 17-1 顶目实战1-单机版五棋游戏 17-2 总体设计 17-3 代码实现 17-4 程序的运行与发布 17-5 手动生成可执行JAR文件 17-6 练习题 18-1 Java数据库编程 18-2 JDBC类和接口 18-3 JDBC操作SQL 18-4 JDBC基本示例 18-5 JDBC应用示例 18-6 练习题 19-1 。。。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值