我试图运行hstack将一列整数值连接到一个由TF-IDF创建的列列表(这样我最终可以在分类器中使用所有这些列/特性)。
我正在使用pandas阅读专栏,检查任何NA值并将其转换为数据帧中的最大值,如下所示:OtherColumn = p.read_csv('file.csv', delimiter=";", na_values=['?'])[["OtherColumn"]]
OtherColumn = OtherColumn.fillna(OtherColumn.max())
OtherColumn = OtherColumn.convert_objects(convert_numeric=True)
然后我在文本栏中阅读并运行TF-IDF以创建大量功能:X = list(np.array(p.read_csv('file.csv', delimiter=";"))[:,2])
tfv = TfidfVectorizer(min_df=3, max_features=None, strip_accents='unicode',
analyzer='word',token_pattern=r'\w{1,}',ngram_range=(1, 2), use_idf=1,smooth_idf=1,sublinear_tf=1)
tfv.fit(X)
最后,我想把它们结合在一起,这就是我们的错误发生的地方,程序无法运行,而且我不确定我是否在这里适当地使用了标准缩放器:X = sp.sparse.hstack((X, OtherColumn.valu