思考：由webshell的检测实验引发

最新推荐文章于 2023-04-02 21:03:24 发布

V丶Chao

最新推荐文章于 2023-04-02 21:03:24 发布

阅读量669

点赞数

分类专栏：安全研究 - 恶意软件文章标签： python 机器学习人工智能 java 大数据

本文链接：https://blog.csdn.net/u011698800/article/details/107607177

版权

安全研究 - 恶意软件专栏收录该内容

16 篇文章 5 订阅

订阅专栏

2020/05/29 -
针对自己研究的过程，来说明几个问题。
当时的时候，也没有思考那么多，就按照他网页中给出的步骤，就直接直接实践了，效果也还算不错；不过这里的话，我突然感觉有些不对劲。其实一直都是不对劲的状态。

它使用的方法呢，是将这个php文件按照文本一样的内容进行处理，然后利用n-gram进行特征化，其实这里的时候，我就有些不明白了，这种形式，当然哈，最后的工作的确是效果还行，但是实际上，我就是感觉我不理解，为什么这样就可以。

加上之前我针对powershell思考的内容，我算是明白了，我其实就是在思考，这个东西到底是不是能进行相关的操作。
就是说能不能获取到比较好解释性。

我仿佛有点明白了，我差的这个过程，其实是说，我应该在看见某个现象之后，我才去思考，我是不是要使用这种模型。
而不是这种直接使用了这种模型，这样就导致中间过程我根本不理解。
就导致了我现在这个状况。

昨天的时候，搜索了一下相关的语言模型，我发现这个东西好像是处理这些数据的关键。

2020/05/30 -
我感觉出来，这种学习过程是一个完全非线性的系统，所以你很难去理解这个东西到底是什么发挥了作用。
然后，我前面的想法，我就是思考不出来，为什么这些特征能够协调起来发挥这样的作用。
比如说，简单的一些内容，你看到这个字符，就能决定这个东西是异常的。
或者说，你看到了两个东西同时出现，你就能决定另外一个东西是异常的。
这种好像属于那种比较简单的基于规则的方法。
那么如果从这个角度来理解，就是等于说，你根本不需要理解这些特征是什么？！
这就有点感觉说不过去了，不该是这样的一个过程。

2020/05/30 -
我去简单学习了一下这个语言模型，我个人感觉得去看看一些比较权威的书，来看看简答的完整的内容。
比如说，那种one-hot最后到word2vec，就感觉他们说的不像是一回事一样，或者说可能是一回事，但是我还没有建立完整的映射。

最后的word2vec是基于上下文的环境下，在此基础上来进行相关的研究；
那么，你看，你这里真的是这种情况吗。
就是说，你需要上下文吗？

我觉得，就从one-hot编码入手来解释，就是说，我是用反汇编作为相应的数据源，然后利用这个数据源来建立一个One-hot模型。，不过我我个人觉得，这种可能不是很有效，毕竟汇编语言的编程单元就那些，没有什么东西。（这个就是后话了）

还是真是webshell的交互，利用one-hot的方式，帮助我从抽象的句子到了具体的数值向量。我需要做的是，训练某个模型，不管什么什么模型都好，他们会帮助我来学习这个，从这些数据中到达异常或者正常的关系映射。
其实说白了，正式因为这中间的这个映射关系非常复杂，属于非线性的东西，才会让我们没有办法简答理解。
那么其他的一些方法呢，如果是不更换具体的模型，也就是学习映射的过程的话，那么前面的一些操作就是特征工程的内容。
其实说白了，就是喂给模型的数据是不是好的。

我来说一下上面的某种理解：在二进制的世界中，如果你丝毫不去考虑其他的事情，你所要做的就是，将原始数据转化为数值类型，这种类型的数据可以输入到具体的模型中，模型会完成从数据到最后结果的映射。但是这种方法的话，你不是很好找到，为什么误分类了。

当然，前面，最开始的内容，也就是说，那个具体的从实际解释层面上到达最后结果，这个映射过程，可能还是需要进一步的理解吧。

我仿佛有了一些感觉，就是我不理解的是说，为什么要使用这种方式。

这里来具体思考一下，首先，看你怎么来处理数据。你得到的是什么，那么在这样的结果之下，就必须通过一定的方法把数据传递到模型中。、

感觉有些那种感觉了。

2020/06/03 -
经过了这几天的思考，或者说疑惑过程。
我算是明白了，一方面是对这种自然语言处理的过程不理解，语义不清淅；另一方面就是本身，我不知道他们到底是处理的什么特征。特别是今天看了一篇卡内基梅隆大学的论文，我也不清楚他这个特征到底是什么。

V丶Chao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
思考：由webshell的检测实验引发

2020/05/29 -针对自己研究的过程，来说明几个问题。当时的时候，也没有思考那么多，就按照他网页中给出的步骤，就直接直接实践了，效果也还算不错；不过这里的话，我突然感觉有些不对劲。其实一直都是不对劲的状态。它使用的方法呢，是将这个php文件按照文本一样的内容进行处理，然后利用n-gram进行特征化，其实这里的时候，我就有些不明白了，这种形式，当然哈，最后的工作的确是效果还行，但是实际...
复制链接

扫一扫