DGA系列之朴素贝叶斯（二）

最新推荐文章于 2023-08-01 23:34:22 发布

吃肉唐僧

最新推荐文章于 2023-08-01 23:34:22 发布

阅读量294

点赞数

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39936434/article/details/103344868

版权

人工智能专栏收录该内容

16 篇文章 2 订阅

订阅专栏

这篇博客是《web安全机器学习入门》DGA域名检测朴素贝叶斯的代码进行复现与解释。

实验步骤如下

1.数据搜集和数据清洗
2.特征化
3.训练样本
4.效果验证

数据搜集和数据清洗

在这里插入图片描述
返回如下结果

load_dga

特征化、训练与验证

在这里插入图片描述
使用三折交叉验证法，输出结果

命中率还不错率还不错

想深入了解三折交叉验证法得话，看我另一篇Blog

其中，对某些代码与函数解释

初始化变量y1,y2,y3
在这里插入图片描述

在这里插入图片描述
concatenate 转换成数组

核心处理特征函数

countVectorizer 是用来处理N-Gram特征的函数
在这里插入图片描述
countVectorizer参数介绍：每2个切割，单词读取错误忽略，正则匹配所有字符，频数起码出现1次
然后，fit_transform训练数据

我们用简单的数据测试下，看返回结果
在这里插入图片描述
用countVectorizer切割

分割出来的词典
print(cv.get_feature_names())

无序词典，并且带有下标
print(cv.vocabulary_)

输出训练后的稀疏矩阵，print(x)
参数为：data列表下标，无序词典下标，该词在data出现的频数
eg：“为了”在无序词典的下标为0，而且属于data列表的0下标，在data列表里出现了两次，所以为（0，0）2，所以定位了一个词的位置和频数
在这里插入图片描述
转为array，print(x.toarray())
x的每个定位都可以在坐标中找到，例如：“为了”，
他的是（0，0） 2，则对应矩阵中第一行第一列的值2，
其他依此类推

本博客对应代码已上传至GitHub：nb_dga.py

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DGA系列之朴素贝叶斯（二）

这篇博客是《web安全机器学习入门》DGA域名检测朴素贝叶斯的代码进行复现与解释。实验步骤如下1.数据搜集和数据清洗2.特征化3.训练样本4.效果验证数据搜集和数据清洗返回如下结果load_dga特征化、训练与验证使用三折交叉验证法，输出结果命中率还不错率还不错想深入了解三折交叉验证法得话，看我另一篇Blog其中，对某些代码与函数解释初始化变量y1,y2,y3...
复制链接

扫一扫

专栏目录

博客等级

码龄7年

168
原创

108
点赞

453
收藏

221
粉丝

关注

私信

分类专栏

信息收集 2篇
人工智能 16篇
安恒杯CTF 1篇
社工 3篇
开发 9篇
挖洞思路 4篇
墨者刷题笔记 95篇
实验吧 3篇
广东省强网杯 3篇
bugku 33篇
百度杯CTF 1篇
Crypto 1篇
Misc 6篇
STEG 6篇
web 31篇
文件上传 2篇
代码审计 16篇
文件包含 1篇
sql注入
其他 10篇

最新评论

bugku——矛盾
m0_75215189: 这个代码怎么在hackbar上提交啊
墨者 - SQL注入漏洞测试(布尔盲注)
Ran: 请问老师，您在抓包之前有没有对bp设置什么啊，比如端口、浏览器这些
墨者 - SQL注入漏洞测试(布尔盲注)
Ran: 想问一下，这个bp选择不同的浏览器有没有影响啊
挖洞思路——验证码绕过
m0_72291776: 大佬可以聊聊吗
墨者 - WebShell文件上传分析溯源(第2题)
伯弘: a.php前是双下划线，就可以连了。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。