spaCy V3.0 Tranformer模型WordEmbedding数据详解

#spaCy V3.0 Tranformer模型WordEmbedding数据详解

对于Tranformer中文模型,官网给出的概要是:

项目说明
LANGUAGEZH Chinese
TYPECORE Vocabulary, syntax, entities, vectors
GENREWEB written text (blogs, news, comments)
SIZETRF 398 MB
COMPONENTStransformer, tagger, parser, ner, attribute_ruler
PIPELINEtransformer, tagger, parser, ner, attribute_ruler
VECTORS0 keys, 0 unique vectors (0 dimensions)
SOURCESOntoNotes 5
AUTHORExplosion
LICENSEMIT

可以看出,其并不包含预定义的词典和词向量。新版本的pipelines如下:
spaCy pipelines

nlp = spacy.load('zh_core_web_trf')

def get_user_dict(f):
	ul = []
	with open(f, 'r', encoding='utf-8') as f:
		for l in f.readlines():
			ul.append(l.split('\t')[0])
	return ul

udict = get_user_dict('c:/user_dict.txt')
nlp.tokenizer.pkuseg_update_user_dict(udict)
doc = nlp('调整给水,注意给水流量与蒸汽流量相匹配,注意过热度,保证主蒸汽温度不超限。')

[t for t in doc]

===============================================================
[调整, 给水, ,, 注意, 给水流量, 与, 蒸汽, 流量, 相匹配, ,, 注意, 过热度, ,, 保证, 主蒸汽, 温度, 不, 超限, 。]


doc._.trf_data
===============================================================
	TransformerData(
	wordpieces=WordpieceBatch(
		strings=[['[CLS]', '调', '整', '给', '水', ',', '注', '意', '给', '水', '流', '量', '与', '蒸', '汽', '流', '量', '相', '匹', '配', ',', '注', '意', '过', '热', '度', ',', '保', '证', '主', '蒸', '汽', '温', '度', '不', '超', '限', '。', '[SEP]']], 
		input_ids=array([[ 101, 6444, 3146, 5314, 3717, 8024, 3800, 2692, 5314, 3717, 3837,
		7030,  680, 5892, 3749, 3837, 7030, 4685, 1276, 6981, 8024, 3800,
		2692, 6814, 4178, 2428, 8024,  924, 6395,  712, 5892, 3749, 3946,
		2428,  679, 6631, 7361,  511,  102]], dtype=int64), 
		attention_mask=array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64), 
		lengths=[39], 
		token_type_ids=array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)), 
		tensors=[array([[[(1, 39, 768]]], dtype=float32), array([[(1, 768)]], dtype=float32)], 
		align=Ragged(data=array([[ 1],[ 2],...[37]], dtype=int32), 
		lengths=array([2, 2, 1, 2, 4, 1, 2, 2, 3, 1, 2, 3, 1, 2, 3, 2, 1, 2, 1], dtype=int32), 
		data_shape=(-1,), 
		cumsums=None))

从中可以看出:

  1. strings:是按字分隔的(bert)
  2. input_ids: 是各字在Transformer的vocab.txt中的索引值
  3. lengths=[39]:是给原始文本加上’[CLS]’,’[SEP]'后的字数
  4. tensors分两部分:
  • doc._.trf_data.tensors[0] :39个字符 * 768维向量
  • doc._.trf_data.tensors[1] :是 1 * 768的矩阵(本例为向量),表示整个句子
  1. lengths=array([2, 2, 1, 2, 4, 1, 2, 2, 3, 1, 2, 3, 1, 2, 3, 2, 1, 2, 1]:表示各分词的字数

其中的tensors能够单独调用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值