SVM系列目录:
支持向量机SVM①——Sklearn核函数参数介绍(线性&高斯&多项式&sigmond)
支持向量机SVM③——通过4种核函数进行波斯顿房价回归预测
SVM基于其可以很好的处理高维数据集的特点,常应用在文本分类,图像识别等领域。本文先对Sklearn自带的fetch_20newsgroups数据集用SVM进行分类,然后再与KNN,贝叶斯,决策树三种分类算法进行对比。
代码如下:
① 导入数据
from sklearn.datasets import fetch_20newsgroups
categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']
train_data = fetch_20newsgroups(subset='train', shuffle=True,categories=categories,random_state=10)
② 特征向量化&TF-IDF&标准化
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_transformer = TfidfVectorizer()
tf_train_data = tfidf_t