KeyBert如何加载本地模型

饿了就干饭

于 2024-08-19 17:07:42 发布

阅读量174

点赞数 2

分类专栏： NLP项目文章标签： nlp

本文链接：https://blog.csdn.net/qq_45893319/article/details/141329882

版权

NLP项目专栏收录该内容

5 篇文章 1 订阅

订阅专栏

在HuggingFace镜像网站搜paraphrase-multilingual-MiniLM-L12-v2，下载所有文件，使用方式可以是：手动一个一个点击文件下载 OR git clone
下载后合并到一个文件中

代码

# pip install jieba
# pip install keybert


# 该方法没有去除停用词
# 这里使用的是zhkeybert，其实在直接用keybert的时候加载本地本地模型文件是一样的
from zhkeybert import KeyBERT, extract_kws_zh
import jieba
from sklearn.feature_extraction.text import CountVectorizer

# 括号后面填写要加载的编码模型文件所在的本地位置
kw_model = KeyBERT("./paraphrase-multilingual-MiniLM-L12-v2")

def tokenize_zh(text):
    cleaned_words = jieba.lcut(text)
    return cleaned_words

def extract_keyword(docs, zhkeybert=True, top_n=20, keyphrase_ngram_range=(1, 2)):
    """
    :param docs: 					待抽取的文章正文
    :param zhkeybert: 				是否使用中文抽取方法
    :param top_n: 					取正文中最重要的前top_n词
    :param keyphrase_ngram_range:	关键词的长度
    :return:						关键词列表
    """
    if zhkeybert:
        keyword_list = extract_kws_zh(docs, kw_model)
    else:
        vectorizer = CountVectorizer(tokenizer=tokenize_zh)
        keyword_list = kw_model.extract_keywords(docs, vectorizer=vectorizer, top_n=top_n, keyphrase_ngram_range=keyphrase_ngram_range)

    if len(keyword_list) != 0:
        kw = [i[0] for i in keyword_list]
        print(f"抽取出的关键词：{kw}")
        return kw
    else:
        kw = []
        print(f"抽取出的关键词：{kw}")
        return kw

docs = """时值10月25日抗美援朝纪念日，《长津湖》片方发布了“纪念中国人民志愿军抗美援朝出国作战71周年特别短片”，再次向伟大的志愿军致敬！
    电影《长津湖》全情全景地还原了71年前抗美援朝战场上那场史诗战役，志愿军奋不顾身的英勇精神令观众感叹：“岁月峥嵘英雄不灭，丹心铁骨军魂永存！”影片上映以来票房屡创新高，目前突破53亿元，暂列中国影史票房总榜第三名。
    值得一提的是，这部影片的很多主创或有军人的血脉，或有当兵的经历，或者家人是军人。提起这些他们也充满自豪，影片总监制黄建新称：“当兵以后会有一种特别能坚持的劲儿。”饰演雷公的胡军透露：“我父亲曾经参加过抗美援朝，还得了一个三等功。”影片历史顾问王树增表示：“我当了五十多年的兵，我的老部队就是上甘岭上下来的，那些老兵都是我的偶像。”
    “身先士卒卫华夏家国，血战无畏护山河无恙。”片中饰演七连连长伍千里的吴京感叹：“要永远记住这些先烈们，他们给我们带来今天的和平。感谢他们的付出，才让我们有今天的幸福生活。”饰演新兵伍万里的易烊千玺表示：“战争的残酷、碾压式的伤害，其实我们现在的年轻人几乎很难能体会到，希望大家看完电影后能明白，是那些先辈们的牺牲奉献，换来了我们的现在。”
    影片对战争群像的恢弘呈现，对个体命运的深切关怀，令许多观众无法控制自己的眼泪，观众称：“当看到影片中的惊险战斗场面，看到英雄们壮怀激烈的拼杀，为国捐躯的英勇无畏和无悔付出，我明白了为什么说今天的幸福生活来之不易。”（记者 王金跃）"""

# 使用zhkeybert
extract_keyword(docs, top_n=20)
# 仅使用keybert
extract_keyword(docs, False, top_n=20)

输出

D:\Anaconda3\envs\newscan\python.exe "D:/001项目汇总/022 AI筛选数据/8 ZhKeyBert模块验证/中文关键词抽取_kerbert/extract_zhkeywords.py"
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\29617\AppData\Local\Temp\jieba.cache
Loading model cost 0.466 seconds.
Prefix dict has been built successfully.
抽取出的关键词：['纪念中国人民志愿军抗美援朝', '电影长津湖', '周年特别短片', '纪念中国人民志愿军', '作战71周年']
D:\Anaconda3\envs\newscan\lib\site-packages\sklearn\feature_extraction\text.py:521: UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
  warnings.warn(
抽取出的关键词：['中国人民志愿军', '长津湖', '纪念日', '纪念', '周年', '影片', '短片', '岁月峥嵘', '以来', '年前', '英雄', '中国', '志愿军', '电影', '为国捐躯', '五十多年', '老兵', '王金跃', '吴京', '抗美援朝']

进程已结束，退出代码为 0