我在解释Tfidf矢量化器的矩阵输出时遇到了麻烦.
特定
vectorizer = TfidfVectorizer(max_df=0.5, max_features=10000,
min_df=2, stop_words='english',
use_idf=True)
X_train_tfidf = vectorizer.fit_transform(X_train_raw)
如果我要查看X_train_tfidf的输出,我会看一个结构如下的矩阵:
第1列对应于文档1,其中元素是10000个特征的tfidf分数,第2列对应于文档2 ……依此类推?
最佳答案 假设您看到类似于此的输出:
(0, 18) 0.424688479366
(0, 6) 0.424688479366
(0, 4) 0.424688479366
(0, 14) 0.239262081323
(0, 17) 0.202366335916
(0, 5) 0.424688479366
(0, 1) 0.424688479366
(1, 17) 0.184426607226
(1, 8) 0.387039944282
(1, 15) 0.387039944282
(1, 0) 0.387039944282
(1, 2) 0.387039944282
(1, 13) 0.387039944282
(1, 7) 0.387039944282
(1, 11) 0.259205161463
(2, 14) 0.313686744222
(2, 17) 0.530628478217