python判断字符串是否在列表_Python:如何确定字符串中是否存在单词列表

本文探讨了一种使用正则表达式在大量字符串中搜索短词列表的方案,指出了当前实现存在的问题,包括搜索效率和前瞻断言的限制。作者考虑了不同的替代方法,如简单的循环搜索和单独的正则表达式搜索,同时更新说明词列表可能包含短语。文章旨在寻求更高效、更准确的搜索策略。
摘要由CSDN通过智能技术生成

给定一个列表[“一”,“二”,“三”],如何确定每个单词是否存在于指定字符串中?

单词列表很短(在我的情况下不到20个字),但要搜索的字符串是非常大的(每个运行40万个字符串)

我目前的实施使用re来寻找比赛,但我不知道是否是最好的方法.

import re

word_list = ["one","two","three"]

regex_string = "(?<=\W)(%s)(?=\W)" % "|".join(word_list)

finder = re.compile(regex_string)

string_to_be_searched = "one two three"

results = finder.findall(" %s " % string_to_be_searched)

result_set = set(results)

for word in word_list:

if word in result_set:

print("%s in string" % word)

我的解决方案中的问题

>它将搜索到字符串的末尾,尽管字可能出现在字符串的前半部分

>为了克服前瞻断言的限制(我不知道如何表达“当前匹配前的字符应该是非字符的字符,或字符串的开始”),我在字符串之前和之后添加了额外的空格我需要搜索.

>其他性能问题由前瞻性断言引入?

可能更简单的实现:

>只是循环通过单词列表,并在string_to_be_searched中做一个if单词.但是如果你正在寻找“三”的话,它不能处理“三人”

>使用一个正则表达式搜索一个单词.仍然我不知道性能,以及多次搜索字符串的潜力.

更新:

其实我忘了在我原来的问题上提到另一个约束.该词可以是短语,例如:word_list = [“一天”,“第二天”].也许我应该提出另一个问题.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值