CountVectorsFeaturizer文档
简介(来自官网)
创建用户消息、意图和响应的词袋表示。
输出
sparse_features 用于用户消息、意图和响应
输入
分词tokens
类型
稀疏特征
描述
为意图分类和响应选择创建特征。使用sklearn CountVectorizer创建用户消息、意图和响应的词袋表示 。所有仅由数字组成的标记(例如 123 和 99 但不是 a123d)将分配给相同的特征
配置
有关 配置参数的详细说明,请参阅sklearn CountVectorizer 文档。
可以使用analyzer配置参数将此特征器配置为使用单词或字符 n-gram 。默认情况下analyzer设置为word因此单词标记计数用作功能。如果要使用字符 n-gram,请设置analyzer为char或char_wb。n-gram 的上下边界可以通过参数min_ngram和进行配置max_ngram。默认情况下,它们都设置为1. 默认情况下,如果可用的话,featurizer 会采用单词的引理而不是直接使用单词。词的引理目前仅由SpacyTokenizer设置。您可以通过设置use_lemma为来禁用此行为False。
char_wb仅从单词边界内的文本创建字符 n-gram;单词边缘的 n-gram 用空格填充。此选项可用于创建子字语义哈希。
对于字符 n-grams 不要忘记增加min_ngram和max_ngram参数。否则词汇表将只包含单个字母。