这是一篇机器学习岗位的笔试题,题目大概就是:
给定了数据特征和数据标签(二分类),使用机器学习算法对数据进行分类,并优化两个重要的参数,计算AUC指标,画出参数优化和AUC指标变化图。
本文选择的是SVM(支持向量机)来实现这一过程,SVM是非常强大、灵活的有监督学习的算法,既可以用于分类,也可以用于回归。
实现过程:
1.导入需要的包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn import preprocessing
from sklearn.model_selection import GridSearchCV
2.读取数据特征和数据标签
path1 = r"Test1_features.dat"
X = pd.read_csv(path1,engine ='python',header=None)
path2 = r"Test1_labels.dat"
Y = pd.read_csv(path2,engine ='python',header=None)
3.查看数据特征的统计信息
查看数据特征的基本统计信息会发现数据之间存在量级差异,因此选择对数据进行标准化(下图显示不完全)
X.describe()