keybert：基于bert模型的关键词抽取工具

最新推荐文章于 2025-03-03 19:38:04 发布

choose_c

最新推荐文章于 2025-03-03 19:38:04 发布

阅读量3.7k

点赞数

分类专栏：深度学习自然语言处理

本文链接：https://blog.csdn.net/choose_c/article/details/119484196

版权

自然语言处理同时被 2 个专栏收录

43 篇文章

订阅专栏

深度学习

33 篇文章

订阅专栏

本文介绍如何利用KeyBERT预训练模型在没有额外训练的情况下，通过CountVectorizer或MMR/Max_Sum方法抽取关键词。关注点在于英文空格分词和候选词选择策略，以及保证关键词间多样性的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

github：https://github.com/MaartenGr/KeyBERT

guides：https://maartengr.github.io/KeyBERT/guides/quickstart.html

使用向量计算抽取关键词，只需要预训练模型，不需要额外模型训练。

流程：
1.没有提供分词功能，英文是空格分词，中文输入需要分完词输入。
2.选择候选词：默认使用CountVectorizer进行候选词选择。
3. model：默认方式，候选词向量和句向量的距离排序。
mmr：最大边际距离方法，保证关键词之间的多样性。考虑词之间的相似性。
max_sum：候选词之间相似和最小的组合。