使用python的re库精准匹配单词

背景:针对跨境电商产品,要对英文标题中的某个词或组合词进行精准匹配,将匹配成功的产品进行删除

需要注意的是,这个词或组合词必须是在标题中独立存在的才算匹配成功,不能是某个词的组成部分

所以这里的重点是精准匹配,否则会误删其他不需要产品,所以关于如何精准匹配,这里写下我的思路

一个词在标题中无非就三个位置:开头、中间、结尾

因为英文标题中的每个单词之间是使用空格进行分隔的,所以针对这三个位置逐一进行匹配即可,这里采用正则库re

代码如下:

import re

def pattern_word(search_word, en_title):
	"""
	params:search_word, str, 需要匹配的词
	params:en_title, str, 被匹配的英文标题
	return:pattern_result, bool, 匹配结果
	"""
	r1 = re.findall(f'^{search_word}$', en_title)
	r2 = re.findall(f'^{search_word} ', en_title) # 词是否在标题开头位置
	r3 = re.findall(f' {search_word}$', en_title) # 词是否在标题末尾位置
	r4 = re.findall(f' {search_word} ', en_title) # 词是否在标题中间位置
	result = r1 + r2 + r3 + r4
	return True if result else False # 无论在哪个位置,如果有成功匹配到,则表示该产品是需要删除的
		
if __name__ == '__main__':
    search_word = 'Analog Digital'
    en_title = 'this is a test there are words other word Analog Digitalas'
    pattern_result = pattern_word(search_word, en_title)
    print(f'搜索词:{search_word}')
    print(f'标题:{en_title}')
    print(f'匹配结果:{pattern_result}')

以下是测试结果:

  1. 词在末尾位置
    在这里插入图片描述
  2. 词在开头位置
    在这里插入图片描述
  3. 标题中虽包含搜索词,但该词并不是独立存在的,而是某个词的部分组成
    在这里插入图片描述
  4. 搜索词是由多个词组成的情况
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    大家觉得怎么样呢?在评论区留下你的疑惑~
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值