02.21：流量表征入门

TheYeah

已于 2023-02-21 19:25:16 修改

阅读量436

点赞数 1

文章标签：人工智能

于 2023-02-21 19:18:16 首次发布

本文链接：https://blog.csdn.net/HilariousBojack/article/details/129148351

版权

文章探讨了网络流量的特征分析，包括流级别与包级别特征的区别，DPI技术在包解析中的应用，以及网络加密流量的识别方法。重点介绍了基于专家知识和深度学习的流量表征方法，并强调特征选择在区分流量中的关键作用。此外，文章提到了模型构建，特别是代理与非代理通信行为的差异分析，以及使用监督学习算法进行分类。

摘要由CSDN通过智能技术生成

首先区分了什么叫流级别特征和包级别特征。包就是包长，包负载熵等，针对包这个个体而言。而流级别就可以理解为一次对话中所有的包所携带的特征。比如流时间，平均包长，等等。

DPI，deep packet inspection，也就是相对于以前的低层包解析，进行更高层的包解析，比如端口号甚至应用层的数据。以此来达到对于流量数据的区分和监管及其他。

而session我认为是和cookie对应的。客户端的cookie会激发服务器端的session来确定用户，这也就是登陆后不需要再进行验证的原因。这也是一种网络攻击的手段吧。

今天上午看了组内整理的关于网络流表征的报告。从方法上来说就是基于专家知识和基于深度学习。从维度上来说是空间，时间和数学模型。而从另一种分类角度来说又可以说有基于负载，对话以及通信。看下来之后的感觉就是通过对于不同角度的特征的识别和发现及提取，人为的将其进行了分类。

然后看了关于网络加密流量识别研究的综述。这里面则是对当今现有的方法进行了更为全面的总结和分类。传统机器学习和深度学习只是两种方法，而方法有很多。重点是特征，现在看下来所有的流量表征一定都是提取一些能反映所需要目的的流量然后加以区分。这一点就注定了是找不同。而只是说找何种不同，用何种方法去表示这种不同。

而论文的作者最后也给出了展望。无论是普适性，还是更新性，还是构建更加合适的数据集等等。我想这些也都是非常现实的问题。

今天看下来，我认为这一方面的整体框架还是明确的，就是具体应该如何去做，去执行，去学习还是需要下一番苦功夫。一面多看，一面需要进行实操了。

这应该叫从整体上先把握，当然我不敢说我已经把握了。只是现在的认知而已。感觉知识学得很散，都是看到什么学什么。不过也是，如果不是这样让我看一本的名词解释而没有具体的应用场景，我估计我也看不下去。这也存在客观合理性吧。先写到这里。

下午重点就是在看组内师姐的论文。确实看中文比看英文看懂了，搞不清楚到底是还是英文不好理解还是什么其他的原因。收获的话一个就是画像目标模型的建立。外源数据是构建一个模型，然后再用实验数据去和这个模型联系起来。再一个就是对于代理和非代理的通信行为根据已有标签进行差异化分析。最后就是使用了众多监督学习中的分类算法，并最终选取了一个效果最好的作为一个分类器。

这篇有关代理的文章我已经看过好多遍了，也是如今终于算是感觉稍微理解了那么一点。虽然说看起来好像思路明确，但是如何发现问题这才是最困难的地方，当然在这个过程中也需要不断地打磨问题，这个过程想必也不会太轻松了。

今天效率还行。一直在克服各种情绪。然后应该规定一个早晨起床的时间，那就八点钟吧。中文十二点出头去吃午饭。晚上这个再考虑。在实验室学习过程中就不应该非整点前后十分钟看手机，这一点还需要锻炼。

明天开始，数学，看代码，写代码。