HuggingFace Bert语言模型抽取句子表征向量

镇长1998

已于 2023-06-12 16:22:39 修改

阅读量615

点赞数

文章标签： bert 语言模型人工智能

于 2023-06-12 15:29:19 首次发布

本文链接：https://blog.csdn.net/weixin_41514525/article/details/131169732

版权

该文介绍了如何通过Python的transformers库安装和使用BERT模型。首先，通过pip安装transformers包。接着，从预训练模型中加载BertTokenizer和BertModel，并指定缓存目录。之后，对输入文本进行处理并使用CUDA设备运行模型，提取CLStoken的隐藏状态。最后，强调了可以手动指定预训练权重的位置，避免网络下载。

摘要由CSDN通过智能技术生成

1. 安装相应的包

pip install transformers

2. 具体代码

from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained('bert_base_cased', cache_dir="dblp/bert_base_cased", local_files_only=True)
model = BertModel.from_pretrained('bert_base_cased', cache_dir="dblp/bert_base_cased", local_files_only=True).cuda().eval()

inputs = tokenizer(setence, return_tensors='pt', max_length=512, truncation=True, padding=True)['input_ids'].cuda()
# [1, squence, hidden_dim]
last_hidden_state = model(**inputs).last_hidden_state
cls_token = last_hidden_state[:, 0, :]

3. 使用预训练权重

step1. 在huggingface上下载想用的模型权重
step2. 创建模型的时候, 手动指定权重的位置, 如果不手动指定, 则默认会先通过网络下载模型权重到本地, 然后再加载模型权重。 第2步中就是加载了指定位置的模型权重。

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

镇长1998

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

BERT之提取特征向量 及 bert-as-server的使用

ling620的专栏

07-05

1万+

本文内容列表提取句向量1、句向量简介1-1传统句向量1-2、BERT句向量2、 extract_features.py源码分析2-1 main函数前一篇文章 BERT介绍及中文文本相似度任务实践简单介绍了使用BERT进行中文文本相似度计算的方法，这篇文章着重对特征提取方法进行讲述。提取句向量 1、句向量简介 1-1传统句向量更多采用word embedding的方式取加权平均，该方法的一大...

使用BERT生成句向量

热门推荐

u012526436的博客

02-19

3万+

转载请注明出处，原文地址在阅读本文之前如果您对BERT并不了解，请参阅我的其他博文BERT完全指南简介之前的文章介绍了BERT的原理、并用BERT做了文本分类与相似度计算，本文将会教大家用BERT来生成句向量，核心逻辑代码参考了hanxiao大神的bert-as-service，我的代码地址如下：代码地址：BERT句向量传统的句向量对于传统的句向量生成方式，更多的是采用word emb...

参与评论您还未登录，请先登录后发表或查看评论

Bert模型获得词向量和句子向量表示

Chloris_的博客

02-22

6137

text = "After stealing money from the bank vault, the bank robber was seen fishing on the Mississippi river bank." marked_text = "[CLS] " + text + " [SEP]" tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') tokenized_text = tokenizer.token.

BERT句向量(一)：Sentence-BERT

sgyuanshi的博客

04-26

1万+

前言句向量：能够表征整个句子语义的向量，目前效果比较好的方法还是通过bert模型结构来实现，也是本文的主题。有了句向量，我们可以用来进行聚类，处理大规模的文本相似度比较，或者基于语义搜索的信息检索。例如搜索系统中的输入query和匹配文档document、Q&A任务的问题和答案等等，都可以转化为计算两个句子的语义相似/相关度，相关度最高的n个作为模型的返回结果。题外话这种类似的模型一般称为passage retrieval models，即段落检索，有两个代表： sparse model

[BERT]tensorflow获取中文句子向量(基于estimator和基于bertServer两种方法)

hwruirui的博客

04-08

2331

目的：将数据集输入BERT，直接获取句子向量做后续训练数据集格式：一句话一行（已过滤掉各种符号）环境：python3.6 + tensorflow1.14 一、利用BertServer 参考：使用Bert得到句向量简单总结_介样不勾的博客-CSDN博客_bert获取句子向量我的数据保存： 1. 安装BertServer： pip install bert-serving-client pip install bert-serving-server 输出： 2. 启动.

BERT预训练模型字向量提取工具--使用BERT编码句子

broccoli2的博客

04-12

4936

本文将介绍两个使用BERT编码句子（从BERT中提取向量）的例子。（1）BERT预训练模型字向量提取工具本工具直接读取BERT预训练模型，从中提取样本文件中所有使用到字向量，保存成向量文件，为后续模型提供embdding。本工具直接读取预训练模型，不需要其它的依赖，同时把样本中所有出现的字符对应的字向量全部提取，后续的模型可以非常快速进行embdding github完整源码 #!/usr...

使用BERT模型生成句子序列向量

weixin_30836759的博客

08-28

1269

之前我写过一篇文章，利用bert来生成token级向量（对于中文语料来说就是字级别向量），参考我的文章：《使用BERT模型生成token级向量》。但是这样做有一个致命的缺点就是字符序列长度最长为512（包含[cls]和[sep]）。其实对于大多数语料来说已经够了，但是对于有些语料库中样本的字符序列长度都比较长的情况，这就有些不够用了，比如我做一个法院文书领域预测任务，里面的事实部分许多都...

Pytorch中使用Bert预训练模型，并给定句子得到对应的向量

qq_33812659的博客

07-19

1万+

写在前面本次的需求是：通过预训练好的Bert模型，得到不同语境下，不同句子的句向量。相比于word2vec、glove这种静态词向量，会含有更丰富的语义，并能解决不同场景不同意思的问题。建议大家先看Bert原论文（看之前最好懂得ELMo，一定要懂transformer），再结合这个博客（墙裂推荐）开始本次记录一共分成以下四步：安装transformer包导入BertTokenizer和BertModel 将要输入的句子修改为Bert要求的输入形式输入Bert模型，得到token向量安装t

BERT生成句向量bert-as-server

weixin_41845265的博客

06-21

1757

方法一：直接生成词向量其中extract_features.py文件为bert句向量生成文件: 方法二：三行代码直接生成句子向量使用方式 bert-as-service的总体架构如下： 1、bert模型部署，是为服务端 2、bert请求调用服务，是为客户端使用方式如下： 1、环境准备 pip install bert-serving-server pip install bert-serving-client 2、预训练的模型下载前往https://github.com/google-re

（连载）词向量的理解——BERT模型的句子向量表示

weixin_43917778的博客

08-29

3663

文章均从个人微信公众号“AI牛逼顿”转载，文末扫码，欢迎关注！ word embedding的出现提升了自然语言处理的效果。典型的使用场景就是把高质量的词向量输入到的模型中，通过后续的一系列计算，去完成相应的任务。比如文本分类，文本匹配等等。说到高质量的词向量，这里要给出一个名词：预训练。土豪公司利用大量数据、构造复杂深层的网络结构能够训练出高质量的词向量，然后把结果开放，可以直接拿来用。...

BERT预训练模型字向量提取工具–使用BERT编码句子

12-21

如何训练一个 BERT 深度学习语言模型?

程序员光剑

09-11

3049

本文作者是资深人工智能专家、资深程序员和软件架构师，他主要从事机器学习、深度学习以及自然语言处理领域的研究工作。近年来由于在自然语言处理、机器学习和图像识别等领域的突破性进展，人们越来越重视对人类语言的理解和建模。语言模型可以帮助计算机更好地理解和生成文本，实现自动问答、聊天机器人、搜索引擎、翻译系统等功能。此外，基于深度学习的语言模型也可以在多语言之间迁移，并帮助构建跨语言的任务，比如：自动摘要、文章审核、语言检测等。使用BERT训练BERT预训练模型；微调BERT预训练模型进行下游任务微调；

BERT模型—4.BERT模型在关系分类任务上的微调

柳杰的博客

07-28

3025

文章目录引言引言关系分类任务在信息抽取中处于核心地位。关系分类任务就是从非结构化文本中抽取出结构化知识；具体为：区分出头实体与尾实体之间的语义关系，比如：通过模型将头实体与尾实体的语义关系分类分出来。那么BERT模型如何应用在关系分类任务当中呢？关系分类模型的架构有多种选择：第一种实现方式：将BERT模型应用于句子的向量表征，不管实体位于句子当中的哪个位置，仍然将句子分词，首尾加上[CLS]与[SEP]，将[CLS]的向量表征拿出来，输入到分类器中，这个分类器输出关系预测类型上的打分。第

BERT预训练语言模型

weixin_43689673的博客

07-05

1243

BERT预训练语言模型

基于Bert架构的精准知识表征模型

ifchange的博客

11-26

1017

画像是什么？ “画像”的出现，得益于大数据、云计算、人工智能等新技术的飞速发展。用户画像（persona）的概念最早由交互设计之父Alan Cooper提出:“Personas ar...

BERT提取句子特征——Bert-as-server的实际操作（Windows10）

weixin_54671931的博客

07-24

1980

笔者最近接到一个任务——使用Bert模型提取句子的特征，得到其输出的特征向量。Bert模型在网上已有许多解读，本文聚焦于如何将Bert模型作为一个工具对句子的特征进行提取。查阅多方资料后，笔者发现谷歌公司已经将Bert模型开源，并且在官网提供了部分已经完成预训练的模型。但是笔者遇到的问题是，Bert官网提供的代码在笔者本地环境中无法正常运行，多次调试环境仍无果。因此，笔者尝试使用Bert-as-server调用预训练的Bert模型进行特征提取。...

使用bert提取中文句子向量遇到的问题

_lilian_的博客

09-05

439

version 必须使用tensorflow1.10.0以上的版本，并且不能使用tensorflow2.0以上的版本查看方式: model 下载中文预训练模型： bert 中文数据集 install pip install bert-serving-server 服务端 pip install bert-serving-client 客户端 start 开启服务端 bert-serving-start -pooling_strategy NONE -model_dir D:\A_code\publis

bert提取词向量比较两文本相似度