flair.embeddings 对句子进行向量

最新推荐文章于 2024-10-14 09:08:48 发布

图灵与对话

最新推荐文章于 2024-10-14 09:08:48 发布

阅读量375

点赞数 9

文章标签：算法

本文链接：https://blog.csdn.net/liangtianxin002/article/details/135735026

版权

本文介绍了如何加载预训练的word2vec模型，并使用Flair库中的Embeddings进行中文文本处理，包括分词、词向量嵌入和文档级嵌入，展示了如何对单个句子和整个文档进行操作。

摘要由CSDN通过智能技术生成

import numpy as np
import pandas as pd
from gensim.models import KeyedVectors
from sklearn.cluster import KMeans

from flair.data import Sentence
from flair.embeddings import WordEmbeddings, FlairEmbeddings
from flair.embeddings import BytePairEmbeddings, StackedEmbeddings, Embeddings, WordEmbeddings, DocumentPoolEmbeddings

path = '/Users/ltx/Documents/RF_work/nlp-gym-240119/word2vec/cc.zh.300.vec'

import gensim
vectors = gensim.models.KeyedVectors.load_word2vec_format(path, binary=False)
vectors.save('/Users/ltx/Documents/RF_work/nlp-gym-240119/word2vec/fasttext_gensim')

# 这个调用方式，我想起来了，我好像是用save 存储过这些东西。

#embeddings = WordEmbeddings('/Users/ltx/Documents/RF_work/nlp-gym-240119/word2vec/fasttext_embedding_cn/fasttext_cn')
"""
sentence = Sentence('我有一个小毛毛驴') # 进入这个Sentence的必须进行分词
embeddings.embed(sentence)
for token in sentence:
print(token)
print(token.embedding[0:10])
# 我做的一切都是正确，很好很欣慰
"""

embeddings = WordEmbeddings('/Users/ltx/Documents/RF_work/nlp-gym-240119/word2vec/fasttext_gensim')
doc_embeddings = DocumentPoolEmbeddings(embeddings)

input_text = '我有一个小毛驴'

sent = Sentence(list(input_text))
print(f'sent:{sent}')
doc_embeddings.embed(sent)

_current_token_embeddings = [token.embedding.cpu().detach() for token in sent]

print (_current_token_embeddings) # 来之不易的成功。