2024年网安最全WebShell脚本检测机器学习二_机器学习检测webshell脚本实践

2401_84252743

于 2024-05-03 14:07:04 发布

阅读量853

点赞数 27

分类专栏：程序员文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/2401_84252743/article/details/138415404

版权

程序员专栏收录该内容

213 篇文章 0 订阅

订阅专栏

机器学习方法实践
上面提到了几种webshell静态检测的方法，无论是特征码匹配、语义检测还是特征统计方法，都需要建立在安全从业人员webshell原理深入的理解基础之上进行提炼，这是个非常耗时的过程，同时维护起来也是异常繁琐。
苏宁在传统检测方法的基础之上，利用机器学习对webshell脚本检测进行赋能（详细使用方式可以参考webshellDc_v0.1。）。我们把webshell检测转换成一个NLP领域的文本分类的问题，通过投喂训练数据的方式锻炼模型对正常脚本及webshell脚本代码组合的记忆能力，以达到识别的效果。
2.1 训练样本获取
可选择的ML方法有很多，无论是传统机器学习或者深度学习，稍微有些NLP经验的前辈都能做出一个很好的解决方案，无非是变换一下特征提取方式和模型。重点其实是数据，掌握的websehll样本越丰富，训练出来的模型效果就越好。要培养一个某领域的专业人才，需要不断去学习该领域的专业知识信息，反复锤炼，其中知识的质量和数量缺一不可，模型训练也是如此。算法的改进是不断去触摸当下数据集所能达到的上限，高质量的数据集才是AI项目性能的基石。苏宁除了主机入侵检测系统观察到的webshell样本外，还收集了160个Github项目的webshell样本用于训练。
有了黑样本，白样本的收集就相对简单一些，但也不代表白羊本不重要，白样本的分布和广泛性也比较重要。我们可以在Github、码云、GitLab、Gitee、Coding等开源直接搜索对应文件类型的项目（由于jsp是建立在java基础上的一种网络编程语言，因此在正常jsp样本不充分的情况下可考虑用java文件来代替）；第二种方式是在条件允许的情况下，将自身业务环境中对应文件类型的文件拿来作为白样本，毕竟在自家数据环境中被教育出来的模型，在解决自家问题的时候也更加驾轻就熟，以此避免模型上线时因训练数据不充分造成的水土不服问题。
2.2 特征处理和模型训练
模型训练借鉴了兜哥《web安全之深度学习实战》书中第十一章思想，采用CountVectorizer和TfidfTransformer对n-gram后的样本进行特征向量处理，分别采用多层神经网络、XGBoost、朴素贝叶斯进行训练，其中MLPClassifier模型表现较好。主要特征处理和训练代码如下：
def features_process(negativedir, postivedir, maxfeatures):
webshell_texts = read_dir(negativedir)
normal_texts = read_dir(postivedir)
webshell_number = len(webshell_texts)
normal_number = len(normal_texts)
texts = webshell_texts + normal_texts
webshell_lables = [1] * webshell_number
normal_lables = [0] * normal_number
lables = webshell_lables + normal_lables
logger.info(“白样本总量：%i” % normal_number)
logger.info(“黑样本总量：%i” % webshell_number)

countvectorizer = CountVectorizer(ngram_range=(2, 2), decode_error="ignore",
min_df=1, analyzer="word",
token_pattern=r'[^\w\s]+|\b\w+\b',
max_features=maxfeatures)
tfidftransformer = TfidfTransformer(smooth_idf=False)
cv_x = countvectorizer.fit_transform(texts).toarray()
tf_x = tfidftransformer.fit_transform(cv_x).toarray()

joblib.dump(countvectorizer, "model/countvectorizer_" + options.version + ".pkl")
joblib.dump(tfidftransformer, "model/tfidftransformer_" + options.version + ".pkl")
return tf_x, lables, countvectorizer, tfidftransformer

def evaluation(y_test, y_pred):
logger.info(“准确率:%s” % metrics.accuracy_score(y_test, y_pred))
logger.info(confusion_matrix(y_test, y_pred))
logger.info(classification_report(y_test, y_pred))

def train(trainset, lables, mode, seed):
x_train, x_test, y_train, y_test = train_test_split(trainset, lables, test_size=0.3, random_state=seed)
clf = model_collection(mode)
clfname = “model/” + mode + “_” + options.version + “.pkl”

还有兄弟不知道网络安全面试可以提前刷题吗？费时一周整理的160+网络安全面试题，金九银十，做网络安全面试里的显眼包！

王岚嵚工程师面试题（附答案），只能帮兄弟们到这儿了！如果你能答对70%，找一个安全工作，问题不大。

对于有1-3年工作经验，想要跳槽的朋友来说，也是很好的温习资料！

【完整版领取方式在文末！！】

93道网络安全面试题