安全实践：webshell检测

最新推荐文章于 2022-10-08 16:35:02 发布

V丶Chao

最新推荐文章于 2022-10-08 16:35:02 发布

阅读量862

点赞数

文章标签： python java 人工智能机器学习 docker

本文链接：https://blog.csdn.net/u011698800/article/details/107607190

版权

2020/03/07 -

引言

最近在看webshell检测的相关文章，最初的搜索的关键词是webshell +cnn，通过找了一些论文来看看具体的检测效果，这里看了几篇文章感觉不错。

基于机器学习的 Webshell 发现技术探索[1]

这篇文章算是看到的比较早的文章了，文章中将多种webshell的检测方法都进行了说明，并将前期的代码处理方式也进行了完整的说明。
前期预处理三种方法：直接使用词袋模型 &n-gram进行处理、opcode然后n-gram进行处理、opcode全部序列直接处理。
采用的算法：朴素贝叶斯、MLP、CNN三种方法进行检测。
文章中对于算法的部分没有进行太多的说明，在对数据进行处理完成之后就直接进行了算法的处理。(除了CNN那个部分模型看起来有点奇怪没见过。)

对我而言，我觉得他文章中比较重要的部分，就是前期预处理的部分，这部分是我不擅长的，或者说不懂得，因为后面得那些部分，都已经算是产业化了。

疑问

在这个方向上，已经有这么多人进行了这么多探究，是不是行业内已经非常成熟了呢？还有哪些问题没有解决呢？

文章[2]的思路并不是从源码的角度来检测，而是通过了访问webshell的流量来检测。他的特征工程很不错，我觉得很有参考意义，他cookie部分没有具体说明，因为对webshell仅仅了解部分，不知道这个部分是怎么设置的。
文章[3]是利用AST进行检测，暂时没有理解这到底是个什么东西。

参考文章

[1]基于机器学习的 Webshell 发现技术探索

[2]基于机器学习的Webshell检测方法与实现（上）
[3]基于AST的Webshell检测

2020/03/08 -

利用tf-idf这种方式实现检测
这种方式，利用CountVectorizer直接对字符串进行处理，然后去除n-gram这种形式的词频；然后通过tf-idf的方式去除其中比较重要的词。
这其中，比较难理解的，就是这个词袋模型，还有后面这个tf-idf的东西，毕竟不是我专业内的东西，但是现在也算是理解了。

#coding:utf-8
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

texts=["dog cat fish","dog cat cat","fish bird", 'bird'] # “dog cat fish” 为输入列表元素,即代表一个文章的字符串
cv = CountVectorizer()#创建词袋数据结构
cv_fit=cv.fit_transform(texts)
#上述代码等价于下面两行
#cv.fit(texts)
#cv_fit=cv.transform(texts)
print(cv.get_feature_names())    #['bird', 'cat', 'dog', 'fish'] 列表形式呈现文章生成的词典
print(cv.vocabulary_    )              # {‘dog’:2,'cat':1,'fish':3,'bird':0} 字典形式呈现，key：词，value:词频
print(cv_fit)
# （0,3） 1   第0个列表元素，**词典中索引为3的元素**， 词频
#（0,1）1
#（0,2）1
#（1,1）2
#（1,2）1
#（2,0）1
#（2,3）1
#（3,0）1
print(cv_fit.toarray()) #.toarray() 是将结果转化为稀疏矩阵矩阵的表示方式；
#[[0 1 1 1]
# [0 2 1 0]
# [1 0 0 1]
# [1 0 0 0]]

print(cv_fit.toarray().sum(axis=0))  #每个词在所有文档中的词频
x_tfidf = TfidfTransformer().fit_transform(cv_fit.toarray())
print x_tfidf.toarray().shape
print "----"
print x_tfidf.toarray()

他们返回的都是那种矩阵，矩阵的内容就是这个文章中某个词的一个属性值。
然后每行的属性就是这条记录（或者说这条样本），他的每个词的属性值。
然后就可以按照朴素贝叶斯的方式来进行处理了。

既然上面这个东西算是弄好了，那我就来继续弄这个php op-code的方式。
不想折腾主机的环境，就用了docker，但是下载下来的好像是ubuntu
但是这个docker环境是debian，然后使用的命令是apt-get，但是源是官方的源，根本用不了太慢了，然后就更换成中科大的
http://mirrors.ustc.edu.cn/help/debian.html

算是折腾了很久终于折腾好了。这里记录一下，就不折腾了，今天的工作算是结束了。

直接使用docker下载的php容器，是debian系的系统，所以没有yum命令，连vi,vim都没有。
更换源的时候，使用debian.html中的方法。
下载wget，git。
wget下载0.14和0.13的vld都没有办法编译通过，configure时候就过不去，使用git直接下载最新版，然后按照命令就可以了。

git clone https://github.com/derickr/vld.git
cd vld
phpize
./configure
make && makeinstall

编译完成后，并不能直接使用，还需要编辑一些配置文件，并不是非常理解他的文件组织方式，学习[1]中的方法，在conf.d文件夹下，添加了这个.so文件。（这个.so文件已经自己复制到php的扩展管理软件中。
然后这个扩展就好使了。
这样，对于这个op序列的使用方式就好了。
关于使用命令的话，可以看那篇文章。
这之间还学了一些简单的docker的命令。

2020/03/09 -

docker进入容器，docker exec -it name command
安装python环境
安装ssh服务，利用docker端口转发连接进去，因为系统不允许root登录，修改后可以
2020/03/11 -
利用之前的环境，获取了所有数据，利用np.savez
直接利用原始代码进行朴素贝叶斯分类，成功率很高
利用mlp分类，都不用非常高得层数，就已经100.。。。
利用2d-cnn进行分类，数据转换成图像形式，利用原来的一个形式进行分类，100.
后面要继续实践得一个内容是，边长得op。
（上面这个效果这么好，都是因为数据好，没办法）

2020/03/12 -
现在的一个关键问题，我没办法处理这个数据，有点尴尬。
处理过来都不知道是什么数据。
对于这个自然语言处理的方式不是很理解。
其实就是对于这个东西如何初始化为我能够操作的形式，我不是很理解，比如之前的时候他是通过n-gram来操作的，但是这个里面应该怎么操作呢？