我使用具有以下样式的标记对文本blob进行矢量化:hi__(how are you), 908__(number code), the__(POS)
如您所见,令牌使用__(info)附加了一些信息,我使用tfidf提取关键字,如下所示:
^{pr2}$
问题是,当我执行上述提取关键字的过程时,我怀疑向量器对象正在从textblob中删除括号。因此,我可以使用tfidf向量器对象中的哪个参数来保存括号中的此类信息?在
更新
我还试图:from sklearn.feature_extraction.text import TfidfVectorizer
def dummy_fun(doc):
return doc
tfidf = TfidfVectorizer(
analyzer='word',
tokenizer=dummy_fun,
preprocessor=dummy_fun,
token_pattern=None)
以及from sklearn.feature_extraction.text import TfidfVectorizer
def dummy_fun(doc):
return doc
tfidf = TfidfVectorizer(
tokenizer=dummy_fun,
preprocessor=dummy_fun,
token_pattern=None)
但是,这将返回一个字符序列,而不是我已经标记的标记:['e', 's', '_', 'a', 't', 'o', 'c', 'r', 'i', 'n']