2024年网安最全WebShell脚本检测机器学习二_机器学习检测webshell脚本实践

机器学习方法实践
上面提到了几种webshell静态检测的方法,无论是特征码匹配、语义检测还是特征统计方法,都需要建立在安全从业人员webshell原理深入的理解基础之上进行提炼,这是个非常耗时的过程,同时维护起来也是异常繁琐。
苏宁在传统检测方法的基础之上,利用机器学习对webshell脚本检测进行赋能(详细使用方式可以参考webshellDc_v0.1。)。我们把webshell检测转换成一个NLP领域的文本分类的问题,通过投喂训练数据的方式锻炼模型对正常脚本及webshell脚本代码组合的记忆能力,以达到识别的效果。
2.1 训练样本获取
可选择的ML方法有很多,无论是传统机器学习或者深度学习,稍微有些NLP经验的前辈都能做出一个很好的解决方案,无非是变换一下特征提取方式和模型。重点其实是数据,掌握的websehll样本越丰富,训练出来的模型效果就越好。要培养一个某领域的专业人才,需要不断去学习该领域的专业知识信息,反复锤炼,其中知识的质量和数量缺一不可,模型训练也是如此。算法的改进是不断去触摸当下数据集所能达到的上限,高质量的数据集才是AI项目性能的基石。苏宁除了主机入侵检测系统观察到的webshell样本外,还收集了160个Github项目的webshell样本用于训练。
有了黑样本,白样本的收集就相对简单一些,但也不代表白羊本不重要,白样本的分布和广泛性也比较重要。我们可以在Github、码云、GitLab、Gitee、Coding等开源直接搜索对应文件类型的项目(由于jsp是建立在java基础上的一种网络编程语言,因此在正常jsp样本不充分的情况下可考虑用java文件来代替 );第二种方式是在条件允许的情况下,将自身业务环境中对应文件类型的文件拿来作为白样本,毕竟在自家数据环境中被教育出来的模型,在解决自家问题的时候也更加驾轻就熟,以此避免模型上线时因训练数据不充分造成的水土不服问题。
2.2 特征处理和模型训练
模型训练借鉴了兜哥《web安全之深度学习实战》书中第十一章思想,采用CountVectorizer和TfidfTransformer对n-gram后的样本进行特征向量处理,分别采用多层神经网络、XGBoost、朴素贝叶斯进行训练,其中MLPClassifier模型表现较好。主要特征处理和训练代码如下:
def features_process(negativedir, postivedir, maxfeatures):
webshell_texts = read_dir(negativedir)
normal_texts = read_dir(postivedir)
webshell_number = len(webshell_texts)
normal_number = len(normal_texts)
texts = webshell_texts + normal_texts
webshell_lables = [1] * webshell_number
normal_lables = [0] * normal_number
lables = webshell_lables + normal_lables
logger.info(“白样本总量:%i” % normal_number)
logger.info(“黑样本总量:%i” % webshell_number)

countvectorizer = CountVectorizer(ngram_range=(2, 2), decode_error="ignore",
min_df=1, analyzer="word",
token_pattern=r'[^\w\s]+|\b\w+\b',
max_features=maxfeatures)
tfidftransformer = TfidfTransformer(smooth_idf=False)
cv_x = countvectorizer.fit_transform(texts).toarray()
tf_x = tfidftransformer.fit_transform(cv_x).toarray()

joblib.dump(countvectorizer, "model/countvectorizer_" + options.version + ".pkl")
joblib.dump(tfidftransformer, "model/tfidftransformer_" + options.version + ".pkl")
return tf_x, lables, countvectorizer, tfidftransformer

def evaluation(y_test, y_pred):
logger.info(“准确率:%s” % metrics.accuracy_score(y_test, y_pred))
logger.info(confusion_matrix(y_test, y_pred))
logger.info(classification_report(y_test, y_pred))

def train(trainset, lables, mode, seed):
x_train, x_test, y_train, y_test = train_test_split(trainset, lables, test_size=0.3, random_state=seed)
clf = model_collection(mode)
clfname = “model/” + mode + “_” + options.version + “.pkl”

还有兄弟不知道网络安全面试可以提前刷题吗?费时一周整理的160+网络安全面试题,金九银十,做网络安全面试里的显眼包!

王岚嵚工程师面试题(附答案),只能帮兄弟们到这儿了!如果你能答对70%,找一个安全工作,问题不大。

对于有1-3年工作经验,想要跳槽的朋友来说,也是很好的温习资料!

【完整版领取方式在文末!!】

93道网络安全面试题

内容实在太多,不一一截图了

黑客学习资源推荐

最后给大家分享一份全套的网络安全学习资料,给那些想学习 网络安全的小伙伴们一点帮助!

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

😝朋友们如果有需要的话,可以联系领取~

1️⃣零基础入门
① 学习路线

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

image

② 路线对应学习视频

同时每个成长路线对应的板块都有配套的视频提供:

image-20231025112050764

2️⃣视频配套工具&国内外网安书籍、文档
① 工具

② 视频

image1

③ 书籍

image2

资源较为敏感,未展示全面,需要的最下面获取

在这里插入图片描述在这里插入图片描述

② 简历模板

在这里插入图片描述

因篇幅有限,资料较为敏感仅展示部分资料,添加上方即可获取👆

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 27
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值