Gavin老师Transformer直播课感悟 - 基于Transformer的Rasa Internals解密之自定义组件及常见组件源码解析(九)

本文深入剖析Rasa框架,讲解如何自定义Dense和Sparse Message Featurizer,以及Tokenizer如WhitespaceTokenizer的工作原理。文章通过实例展示了如何利用BPEmb和TF-IDF实现特征编码,并探讨了CountVectorsFeaturizer和RegexFeaturizer的特征提取方法。
摘要由CSDN通过智能技术生成

本文继续围绕工业级业务对话平台和框架Rasa从源码的角度来解析:

1,自定义Dense Message Featurizer和Sparse Message Featurizer

2,Rasa的Tokenizer及WhitespaceTokenizer

3,CountVectorsFeaturizer及RegexFeaturizer

六、定制Graph Components

4. 关于自定义组件的源码实现解析

1) Dense Message Featurizer

        首先看一下Rasa框架中这个类DenseFeaturizer,它是所有dense featurizers的基类,在这个类中定义了一个静态方法aggregate_sequence_features:

        下面是一个使用了预训练模型的dense message featurizer的实现样例,在package import部分可以看到使用了BPEmb,这是一个基于BPE(Byte-Pair Encoding)的使用275种语言进行预训练后的subword级别的编码集合,在NLP里被作为神经网络模型(如DIET)的输入来使用,另外还import了前面介绍的DefaultV1Recipe,GraphComponent,Resource,ModelStorage,Tokenizer等重要的类,除此之外,还import了DenseFeaturizer(上面图中所示的类):

下图中关于组件注册使用了decorator “DefaultV1Recipe.register”,由于使用了BPEmb,所以类名为”BytePairFeaturizer”:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值