KeyBert如何加载本地模型

在HuggingFace镜像网站搜paraphrase-multilingual-MiniLM-L12-v2,下载所有文件,使用方式可以是:手动一个一个点击文件下载 OR git clone
下载后合并到一个文件中

代码

# pip install jieba
# pip install keybert


# 该方法没有去除停用词
# 这里使用的是zhkeybert,其实在直接用keybert的时候加载本地本地模型文件是一样的
from zhkeybert import KeyBERT, extract_kws_zh
import jieba
from sklearn.feature_extraction.text import CountVectorizer

# 括号后面填写要加载的编码模型文件所在的本地位置
kw_model = KeyBERT("./paraphrase-multilingual-MiniLM-L12-v2")

def tokenize_zh(text):
    cleaned_words = jieba.lcut(text)
    return cleaned_words

def extract_keyword(docs, zhkeybert=True, top_n=20, keyphrase_ngram_range=(1, 2)):
    """
    :param docs: 					待抽取的文章正文
    :param zhkeybert: 				是否使用中文抽取方法
    :param top_n: 					取正文中最重要的前top_n词
    :param keyphrase_ngram_range:	关键词的长度
    :return:						关键词列表
    """
    if zhkeybert:
        keyword_list = extract_kws_zh(docs, kw_model)
    else:
        vectorizer = CountVectorizer(tokenizer=tokenize_zh)
        keyword_list = kw_model.extract_keywords(docs, vectorizer=vectorizer, top_n=top_n, keyphrase_ngram_range=keyphrase_ngram_range)

    if len(keyword_list) != 0:
        kw = [i[0] for i in keyword_list]
        print(f"抽取出的关键词:{kw}")
        return kw
    else:
        kw = []
        print(f"抽取出的关键词:{kw}")
        return kw

docs = """时值10月25日抗美援朝纪念日,《长津湖》片方发布了“纪念中国人民志愿军抗美援朝出国作战71周年特别短片”,再次向伟大的志愿军致敬!
    电影《长津湖》全情全景地还原了71年前抗美援朝战场上那场史诗战役,志愿军奋不顾身的英勇精神令观众感叹:“岁月峥嵘英雄不灭,丹心铁骨军魂永存!”影片上映以来票房屡创新高,目前突破53亿元,暂列中国影史票房总榜第三名。
    值得一提的是,这部影片的很多主创或有军人的血脉,或有当兵的经历,或者家人是军人。提起这些他们也充满自豪,影片总监制黄建新称:“当兵以后会有一种特别能坚持的劲儿。”饰演雷公的胡军透露:“我父亲曾经参加过抗美援朝,还得了一个三等功。”影片历史顾问王树增表示:“我当了五十多年的兵,我的老部队就是上甘岭上下来的,那些老兵都是我的偶像。”
    “身先士卒卫华夏家国,血战无畏护山河无恙。”片中饰演七连连长伍千里的吴京感叹:“要永远记住这些先烈们,他们给我们带来今天的和平。感谢他们的付出,才让我们有今天的幸福生活。”饰演新兵伍万里的易烊千玺表示:“战争的残酷、碾压式的伤害,其实我们现在的年轻人几乎很难能体会到,希望大家看完电影后能明白,是那些先辈们的牺牲奉献,换来了我们的现在。”
    影片对战争群像的恢弘呈现,对个体命运的深切关怀,令许多观众无法控制自己的眼泪,观众称:“当看到影片中的惊险战斗场面,看到英雄们壮怀激烈的拼杀,为国捐躯的英勇无畏和无悔付出,我明白了为什么说今天的幸福生活来之不易。”(记者 王金跃)"""

# 使用zhkeybert
extract_keyword(docs, top_n=20)
# 仅使用keybert
extract_keyword(docs, False, top_n=20)

输出

D:\Anaconda3\envs\newscan\python.exe "D:/001项目汇总/022 AI筛选数据/8 ZhKeyBert模块验证/中文关键词抽取_kerbert/extract_zhkeywords.py"
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\29617\AppData\Local\Temp\jieba.cache
Loading model cost 0.466 seconds.
Prefix dict has been built successfully.
抽取出的关键词:['纪念中国人民志愿军抗美援朝', '电影长津湖', '周年特别短片', '纪念中国人民志愿军', '作战71周年']
D:\Anaconda3\envs\newscan\lib\site-packages\sklearn\feature_extraction\text.py:521: UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
  warnings.warn(
抽取出的关键词:['中国人民志愿军', '长津湖', '纪念日', '纪念', '周年', '影片', '短片', '岁月峥嵘', '以来', '年前', '英雄', '中国', '志愿军', '电影', '为国捐躯', '五十多年', '老兵', '王金跃', '吴京', '抗美援朝']

进程已结束,退出代码为 0

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
毕业设计,基于SpringBoot+Vue+MySQL开发的公寓报修管理系统,源码+数据库+毕业论文+视频演示 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本公寓报修管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,达到事半功倍的效果。此公寓报修管理系统利用当下成熟完善的Spring Boot框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的MySQL数据库进行程序开发。公寓报修管理系统有管理员,住户,维修人员。管理员可以管理住户信息和维修人员信息,可以审核维修人员的请假信息,住户可以申请维修,可以对维修结果评价,维修人员负责住户提交的维修信息,也可以请假。公寓报修管理系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。 关键词:公寓报修管理系统;Spring Boot框架;MySQL;自动化;VUE
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

饿了就干饭

你的鼓励将是我创作的最大动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值