spaCy V3.0 Tranformer模型WordEmbedding数据详解

最新推荐文章于 2024-03-09 16:10:46 发布

Cxrlyy

最新推荐文章于 2024-03-09 16:10:46 发布

阅读量506

点赞数

分类专栏： # spaCy V3.0 自然语言处理NLP 文章标签： nlp

本文链接：https://blog.csdn.net/u014607067/article/details/114283523

版权

自然语言处理NLP 同时被 2 个专栏收录

14 篇文章 5 订阅

订阅专栏

spaCy V3.0

11 篇文章 9 订阅

订阅专栏

#spaCy V3.0 Tranformer模型WordEmbedding数据详解

对于Tranformer中文模型，官网给出的概要是：

项目	说明
LANGUAGE	ZH Chinese
TYPE	CORE Vocabulary, syntax, entities, vectors
GENRE	WEB written text (blogs, news, comments)
SIZE	TRF 398 MB
COMPONENTS	transformer, tagger, parser, ner, attribute_ruler
PIPELINE	transformer, tagger, parser, ner, attribute_ruler
VECTORS	0 keys, 0 unique vectors (0 dimensions)
SOURCES	OntoNotes 5
AUTHOR	Explosion
LICENSE	MIT

可以看出，其并不包含预定义的词典和词向量。新版本的pipelines如下：
spaCy pipelines

nlp = spacy.load('zh_core_web_trf')

def get_user_dict(f):
	ul = []
	with open(f, 'r', encoding='utf-8') as f:
		for l in f.readlines():
			ul.append(l.split('\t')[0])
	return ul

udict = get_user_dict('c:/user_dict.txt')
nlp.tokenizer.pkuseg_update_user_dict(udict)
doc = nlp('调整给水，注意给水流量与蒸汽流量相匹配，注意过热度，保证主蒸汽温度不超限。')

[t for t in doc]

===============================================================
[调整, 给水, ，, 注意, 给水流量, 与, 蒸汽, 流量, 相匹配, ，, 注意, 过热度, ，, 保证, 主蒸汽, 温度, 不, 超限, 。]


doc._.trf_data
===============================================================
	TransformerData(
	wordpieces=WordpieceBatch(
		strings=[['[CLS]', '调', '整', '给', '水', '，', '注', '意', '给', '水', '流', '量', '与', '蒸', '汽', '流', '量', '相', '匹', '配', '，', '注', '意', '过', '热', '度', '，', '保', '证', '主', '蒸', '汽', '温', '度', '不', '超', '限', '。', '[SEP]']], 
		input_ids=array([[ 101, 6444, 3146, 5314, 3717, 8024, 3800, 2692, 5314, 3717, 3837,
		7030,  680, 5892, 3749, 3837, 7030, 4685, 1276, 6981, 8024, 3800,
		2692, 6814, 4178, 2428, 8024,  924, 6395,  712, 5892, 3749, 3946,
		2428,  679, 6631, 7361,  511,  102]], dtype=int64), 
		attention_mask=array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64), 
		lengths=[39], 
		token_type_ids=array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)), 
		tensors=[array([[[(1, 39, 768]]], dtype=float32), array([[(1, 768)]], dtype=float32)], 
		align=Ragged(data=array([[ 1],[ 2],...[37]], dtype=int32), 
		lengths=array([2, 2, 1, 2, 4, 1, 2, 2, 3, 1, 2, 3, 1, 2, 3, 2, 1, 2, 1], dtype=int32), 
		data_shape=(-1,), 
		cumsums=None))

从中可以看出：