网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
2、网格搜索
网格搜索也叫超「参数搜索」,比如K-近邻算法的K值需要手动指定参数,这种参数就叫超参数。网格搜索通过预设几组超参数组合,每组超参数都用交叉验证进行评估,从而选出「最优」的参数组合来建立模型。
sklearn 模块 GridSearchCV 很好的实现了网格搜索,它可以自动调参,只要把参数输进去,就能给出最优的结果和参数。
3、模型选择与调优API
sklearn.model_selection.GridSearchCV( estimator,param_grid,cv)
- estimator:需要使用的分类器
- param_grid:需要优化的参数,字典或列表格式
{ "n_neighbors": [1, 3, 5] , }
- cv:交叉验证次数
返回值属性
- best_params_:(dict)最佳参数
- best_score_ :(float)最佳结果
- best_estimator_:(estimator)最佳分类器
- cv_results_:(dict)交叉验证结果
- best_index_:(int)最佳参数的索引
- n_splits_:(int)交叉验证的次数
4、案例演示
接下来,我们使用 GridSearchCV 来选择 K-近邻算法的「最佳K值」
4.1、特征集获取划分
使用 sklearn 自带的的鸢尾花「数据集」,数据集划分为60%训练,40%测试。
from sklearn import datasets
from sklearn import model_selection
# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x\_train:训练集特征,x\_test:测试集特征,y\_train:训练集目标,y\_test:测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
print('训练集特征:', len(x_train))
print('测试集特征:', len(x_test))
print('训练集目标:', len(y_train))
print('测试集特征:', len(y_test))
输出:
训练集特征: 112
测试集特征: 38
训练集目标: 112
测试集特征: 38
从输出结果可以看到,训练集和测试集的比例符合预期
4.2、特征标准化
接下来,对训练集特征和测试集特征进行「标准化」处理
from sklearn import datasets
from sklearn import model_selection
from sklearn import preprocessing
# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x\_train:训练集特征,x\_test:测试集特征,y\_train:训练集目标,y\_test:测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
# 3、特征标准化
ss = preprocessing.StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)
print(x_train)
输出:
[[-0.18295405 -0.192639 0.25280554 -0.00578113]
[-1.02176094 0.51091214 -1.32647368 -1.30075363]
[-0.90193138 0.97994624 -1.32647368 -1.17125638]
从输出结果可以看到,特征已经标准化。
4.3、KNN算法处理
将训练特征集和测试特征集传给KNN,并查看「准确率」。
from sklearn import datasets
from sklearn import model_selection
from sklearn import preprocessing
from sklearn import neighbors
# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x\_train:训练集特征,x\_test:测试集特征,y\_train:训练集目标,y\_test:测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
# 3、特征标准化
ss = preprocessing.StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)
# 4、KNN算法处理
knn = neighbors.KNeighborsClassifier(n_neighbors=2)
knn.fit(x_train, y_train)
print(knn.score(x_test, y_test))
输出:
0.8947368421052632
从输出结果可以看到,准确率是89%,一般般。
给大家的福利
零基础入门
对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。
同时每个成长路线对应的板块都有配套的视频提供:
因篇幅有限,仅展示部分资料
网络安全面试题
绿盟护网行动
还有大家最喜欢的黑客技术
网络安全源码合集+工具包
所有资料共282G,朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》,可以扫描下方二维码领取(如遇扫码问题,可以在评论区留言领取哦)~
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!