我有文本变量中的单词列表及其标签。我喜欢制作一个分类器,它可以预测新输入文本的标签。在
我正在考虑使用Python中的scikit-learn包来使用SVM模型。在
我意识到文本需要转换为向量形式,所以我尝试TfidfVectorizer和CountVectorizer。在
这是到目前为止我使用TfidfVectorizer的代码:from sklearn import svm
from sklearn.feature_extraction.text import TfidfVectorizer
label = ['organisasi','organisasi','organisasi','organisasi','organisasi','lokasi','lokasi','lokasi','lokasi','lokasi']
text = ['Partai Anamat Nasional','Persatuan Sepak Bola', 'Himpunan Mahasiswa','Organisasi Sosial','Masyarakat Peduli','Malioboro','Candi Borobudur','Taman Pintar','Museum Sejarah','Monumen Mandala']
vectorizer = TfidfVectorizer(min_df=1)
X = vectorizer.fit_transform(text)
y = label
klasifikasi = svm.SVC()
klasifikasi = klasifikasi.fit(X,y) #training
test_text = ['Partai Perjuangan']
test_vector = vectorizer.fit_transform(test_text)
prediksi = klasifikasi.predict([test_vector]) #test
print(prediksi)
我也尝试使用上面相同代码的CountVectorizer。
两者都显示相同的错误结果:
^{pr2}$
如何解决这个问题?谢谢