2024年网络安全最全【机器学习】特征降维 - 方差选择法VarianceThreshold，2024最新网络安全算法相关面试大全

最新推荐文章于 2024-06-18 11:48:36 发布

2401_84254364

最新推荐文章于 2024-06-18 11:48:36 发布

阅读量765

点赞数 19

分类专栏：程序员文章标签： web安全机器学习算法

本文链接：https://blog.csdn.net/2401_84254364/article/details/138510781

版权

程序员专栏收录该内容

197 篇文章 3 订阅

订阅专栏

本人从事网路安全工作12年，曾在2个大厂工作过，安全服务、售后服务、售前、攻防比赛、安全讲师、销售经理等职位都做过，对这个行业了解比较全面。

最近遍览了各种网络安全类的文章，内容参差不齐，其中不伐有大佬倾力教学，也有各种不良机构浑水摸鱼，在收到几条私信，发现大家对一套完整的系统的网络安全从学习路线到学习资料，甚至是工具有着不小的需求。

最后，我将这部分内容融会贯通成了一套282G的网络安全资料包，所有类目条理清晰，知识点层层递进，需要的小伙伴可以点击下方小卡片领取哦！下面就开始进入正题，如何从一个萌新一步一步进入网络安全行业。

学习路线图

其中最为瞩目也是最为基础的就是网络安全学习路线图，这里我给大家分享一份打磨了3个月，已经更新到4.0版本的网络安全学习路线图。

相比起繁琐的文字，还是生动的视频教程更加适合零基础的同学们学习，这里也是整理了一份与上述学习路线一一对应的网络安全视频教程。

网络安全工具箱

当然，当你入门之后，仅仅是视频教程已经不能满足你的需求了，你肯定需要学习各种工具的使用以及大量的实战项目，这里也分享一份我自己整理的网络安全入门工具以及使用教程和实战。

项目实战

最后就是项目实战，这里带来的是SRC资料&HW资料，毕竟实战是检验真理的唯一标准嘛~

面试题

归根结底，我们的最终目的都是为了就业，所以这份结合了多位朋友的亲身经验打磨的面试题合集你绝对不能错过！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

提取的特征当中，有一些相关（相似）的「冗余特征」，这种特征是没有必要统计的，我们需要「减少」相关的特征，留下不相关的特征。也就是「特征降维」。

特征降维的方式有很多，这里使用其中的一种：方差选择法（低方差过滤）

一、方差科普

先简单科普一下，方差=平方的均值减去均值的平方，公式是：

在这里插入图片描述

比如，1、2、3、4、5这五个数，平均数是3；

而「方差」是各个数据分别与其和的平均数之差的平方的和的平均数：[(1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2]/5=2，也就是2。

方差小，就意味某个特征大多样本的值比较相近；方差大，就意味着某个特征大多样本的值都有差别。

方差选择法也叫「低方差过滤」，顾名思义，就是设定一个方差的值，所有低于这个方差的特征都会被删掉。

二、方差选择API

sklearn.feature_selection 是特征选择的API

sklearn.feature_selection.VarianceThreshold( threshold=0 )

VarianceThreshold.fit_transform( data )：接收字典类型的原始数据，返回方差过滤后的数字特征
VarianceThreshold.inverse_transform( data )：将过滤后的数字特征，转回原始数据
VarianceThreshold.get_feature_names_out()：返回特征名字
VarianceThreshold.variances_：返回每个特征对应的方差值

三、获取数据集

这里我们使用鸢尾花数据集来做示例

from sklearn import datasets

# 初始化鸢尾花数据集
iris = datasets.load_iris()

# 打印数据特征
print(iris.data)
# 打印特征数总结
print(iris.data.shape)

输出：

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 ......
 [5.9 3.  5.1 1.8]]
(150, 4)

从输出结果可以看到，数据集现在有150条数据，每条数据有4个特征。

四、进行方差过滤

接下来我们进行方差过滤，指定方差为0.2

from sklearn import feature_selection
from sklearn import datasets

# 初始化鸢尾花数据集
iris = datasets.load_iris()
# 初始化转换器（指定方差为0.2）
vt = feature_selection.VarianceThreshold(threshold=0.2)

# 使用转换器对数据进行低方差过滤
result = vt.fit_transform(iris.data)

# 打印数据特征
print(result)
print(result.shape)

输出：

[[5.1 1.4 0.2]
 [4.9 1.4 0.2]
 ......
 [5.9 5.1 1.8]]
(150, 3)

从输出结果可以看到，转换后的数据集有150条数据，每条数据有3个特征，方差小于0.2的那个特征被过滤掉了。

接下来，我们把方差改成1

from sklearn import feature_selection
from sklearn import datasets

# 初始化鸢尾花数据集
iris = datasets.load_iris()
# 初始化转换器（指定方差为1）
vt = feature_selection.VarianceThreshold(threshold=1)

# 使用转换器对数据进行低方差过滤


**先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7**

**深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

**因此收集整理了一份《2024年最新网络安全全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/cdbb2119c2333f237df36db7ac2c3449.png)
![img](https://img-blog.csdnimg.cn/img_convert/19224662a67541619a827821dd534317.png)
![img](https://img-blog.csdnimg.cn/img_convert/58f3a5cbfd4c9c1bae1aca2a617474d2.png)
![img](https://img-blog.csdnimg.cn/img_convert/c5c59f0c9f0cc17bcc8cf807ba258226.png)
![img](https://img-blog.csdnimg.cn/img_convert/0f891b32731f23ee23f40511d8150e7d.png)
![img](https://img-blog.csdnimg.cn/img_convert/849fe15575e117dddaf0443d2749bd74.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上网络安全知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以点击这里获取](https://bbs.csdn.net/topics/618540462)**

]

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上网络安全知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以点击这里获取](https://bbs.csdn.net/topics/618540462)**