python批量搜索关键字_多关键字是高效的搜索关键字

这属于“天真”阵营,但这里有一种方法,将集合作为思考的食粮:docs = [

""" Here's a sentence with dog and apple in it """,

""" Here's a sentence with dog and poodle in it """,

""" Here's a sentence with poodle and apple in it """,

""" Here's a dog with and apple and a poodle in it """,

""" Here's an apple with a dog to show that order is irrelevant """

]

query = ['dog', 'apple']

def get_similar(query, docs):

res = []

query_set = set(query)

for i in docs:

# if all n elements of query are in i, return i

if query_set & set(i.split(" ")) == query_set:

res.append(i)

return res

这将返回:

^{pr2}$

当然,时间复杂度并不是很高,但由于执行哈希/集操作的速度,它比使用列表要快得多。

第2部分是,Elasticsearch是一个很好的候选者,如果您愿意付出努力,并且您要处理大量的数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
批量提取Word关键字段落可以使用Python中的python-docx库来实现。以下是一个简单的示例代码: ```python import docx def extract_keyword_paragraphs(doc_path, keyword): doc = docx.Document(doc_path) keyword_paragraphs = [] for paragraph in doc.paragraphs: if keyword in paragraph.text: keyword_paragraphs.append(paragraph.text) return keyword_paragraphs doc_path = "sample.docx" keyword = "关键字" keyword_paragraphs = extract_keyword_paragraphs(doc_path, keyword) for paragraph in keyword_paragraphs: print(paragraph) ``` 首先,我们需要导入python-docx库。然后,定义一个`extract_keyword_paragraphs`函数来提取关键字段落。这个函数接受两个参数:`doc_path`表示Word文档的路径,`keyword`表示要提取的关键字。在函数内部,我们使用`docx.Document`来打开Word文档,然后遍历所有段落(`doc.paragraphs`),并检查每个段落中是否包含关键字。如果包含,将该段落加入到`keyword_paragraphs`列表中。最后,返回提取到的关键字段落。 接下来,我们指定要提取关键字段落的Word文档路径和关键字,并调用`extract_keyword_paragraphs`函数进行提取。最后,我们遍历提取到的关键字段落列表,并逐行打印出来。 请注意,这只是一个简单的示例,实际应用中可能还需要根据具体需求进行进一步处理和优化,比如处理表格中的字段落、提取其他格式的文本等。另外,需要安装python-docx库,可以使用`pip install python-docx`命令进行安装。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值