- 博客(61)
- 收藏
- 关注
原创 周报_2024/12/1
2.做“鸟巢”、“驱鸟器”、“藤蔓”、“其他漂浮物”的识别实验,目前“驱鸟器”识别效果较好(检出率:84.85%,误检率:12.50%),其他几个类别的标签数据过少,目前无法分析效果。1.分析“瓷瓶”缺陷识别效果差的原因,目前的主要原因:(1)某些类别的缺陷样本少;(2).显存不够需要对图像进行压缩,导致损失细节。给邵老师的标书添加内容和图片。
2024-12-01 09:28:08
294
原创 周报_2024/11/3
优化模型使其效果超过baseline。由于实际部署问题当前使用的数据粒度需要修改,正在尝试在其他论文中使用的数据粒度上实验并对比。更换数据粒度进行实验。
2024-11-03 11:14:27
280
原创 周报_2024/10/27
1.改进当前的多尺度特征融合模型架构,完成ip对级粒度统计特征数据上的实验和baseline实验,目前效果没有超过baseline,但模型参数还可以优化。2.修改技术文档和ppt。
2024-10-27 09:28:31
363
原创 周报_2024/10/20
调研时间序列分析算法,用于解决网络流量时空维度特征构建的问题。调研网络行为语义表示学习,与邵老师讨论国基项的研究方向。修改项目标书和答辩ppt。
2024-10-20 09:23:29
311
原创 周报_2024/10/13
调研网络行为语言表示学习,收集自监督预训练方法。修改项目标书的技术文档,制作项目答辩PPT。调研解决标签加噪的方法,阅读论文。熟悉邵老师给的国基项目。
2024-10-13 09:25:37
259
原创 周报_2024/9/29
在ISCX数据集上实验,test集中benign数据预测效果很差,分析后发现该数据集benign数据中混有恶意数据。从已有的数据集中筛选数据,人为构造概念飘逸的数据分布,代替有问题的ISCX数据集。继续做标签加噪实验,测试模型在不同比例的噪声标签下的性能。给邵老师的项目写标书。
2024-09-29 09:18:17
282
原创 周报_2024/9/22
1.改进预训练阶段的dataloader读取数据方式并优化各个loss占比,以解决统计特征预测任务loss下降不稳定的问题。(之前逐个读取各类数据的文件,没有打乱。2.使用ISCX数据集构造数据,发现使用的流量统计包遇到某些协议的数据包时会报错,目前正在解决。ISCX数据集上测试模型。
2024-09-22 09:23:12
348
原创 周报_2024/9/15
1.使用多尺度特征融合模型在USTC-TFC数据集上做预训练和微调实验,预训练阶段中预测统计特征的回归任务和同源预测任务loss下降不理想,但是微调效果不错。2.使用邵老师给的模型代码做实验。
2024-09-15 09:25:39
352
原创 周报_2024/8/18
修改了et-bert的微调代码,使用et-bert模型在ISCX-botnet数据集的训练集部分做多分类预测,目前效果:5分类任务,acc=0.9938 (930082/935928)2.处理数据集做成二分类任务,并在test集合中的恶意流量中加入train集中没有的恶意流量类别,预期模型效果一定程度上下降。1.做实验对比et-bert原论文中的数据处理方法和目前自己使用的数据处理方法对分类结果的影响。3.替换模型中的transformer模块。
2024-08-18 09:30:35
248
原创 周报_2024/8/3
使用BERT在原始流量上做分类预测,效果不好。对比别人的论文源码后发现模型结构有问题。对照别人的论文源码修改模型,实现初步效果。
2024-08-03 23:14:08
378
原创 周报_2024/5/5
给邵老师的项目挖掘不同来源的数据的周期性关系汇成表格,制作流量时序特征和统计特征图。使用tokenizers生成网络流量语料库。熟悉商品、购物车模块的逻辑。
2024-05-05 21:24:55
344
原创 周报_2024/4/28
尝试几种特征筛选方法得出的多种特征子集,默认模型效果提升明显但是问题依然存在,且使用特征筛选后triplet loss效果提升不明显。正在给邵老师的项目做周期性模式挖掘,本周构造了周期数据。重新构造了数据集,保留了流级数据的特征和时序特征。
2024-04-28 19:36:33
326
原创 周报_2024/4/21
结果表明triplet loss + 正则对处理概念漂移有利。使用互信息法进行特征筛选,对模型提升较为明显。测试常见聚类算法在数据集上的效果,效果很差。修复客服系统会话管理功能已知的bug。客服系统自动回复增加关键字匹配功能。调研处理概念漂移的方法。
2024-04-21 20:29:13
239
原创 周报_2024/4/14
阅读论文《An efficient feature generation approach based on deep learning and。批量实验各种超参数组合。
2024-04-14 18:03:55
375
原创 周报_第四十七周
整理实验后发现在多次实验下triplet loss带来的平均提升无法与L1等传统抗过拟合方法拉开差距,之前的实验阶段triplet loss提升较大可能是由于实验次数不够出现的偶然现象。目前在多尝试超参数组合并选择结果较好的实验。
2024-03-31 20:44:41
328
原创 周报_第四十五周
将使用triplet loss预训练的模型和最终进行分类的模型结合成多输出模型,两个模型分开训练都没问题,但是结合后loss计算上有bug花了较多时间还没解决。持续调整模型结构尝试获取更好的效果。
2024-03-18 09:28:21
342
原创 周报_第四十四周
通过使用triplet loss预训练以及调整模型参数和结构提升在测试集上的预测效果:目前最好效果:使用triplet loss前后的效果对比:暂无。
2024-03-10 22:28:31
233
原创 周报三十四周
设计实验demo验证在真实数据中做实验发现的一个规律引发的idea(和邵老师讨论后认为idea是成立的)理解ETBERT代码(没看完)
2023-12-31 17:57:29
485
原创 周报_第三十三周
2.读完《ET-BERT A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification》1.分析之前实验用的代码中计算结果对各个特征的梯度的代码(这段代码是网上找的虽然能用但是之前不知道里面具体原理)
2023-12-24 19:21:07
558
原创 周报_第三十二周
读《ET-BERT A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification》
2023-12-17 21:18:13
663
原创 周报_第三十一周
读《ET-BERT A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification》找出预测效果好和差的botnet种类,分析不同botnet种类预测效果不同的原因。开发后台管理系统的统一令牌认证功能供客服系统的客服令牌认证调用。处理客服系统用户认证的一些bug。
2023-12-10 21:16:32
594
原创 周报_第三十周
分析原因:查询数据集中包含的botnet种类发现,ISCX_train和CTU中包含的botnet种类较为接近,而ISCX_test中包含许多ISCX_train和CTU中没有的botnet种类。预处理CTU数据,将其黑白数据占比调整至与ISCX_test一致,使用ISCX_train训练出的模型在CTU预测,对比CTU和ISCX_test的预测结果。实验结果:在ISCX_train集上训练出来的两种模型在ISCX_test集上效果难以提升,但是在CTU上反而效果很好,与之前猜测的结果相反。
2023-12-03 19:33:27
550
原创 周报_第二十九周
分析和选择log文件中的特征,将TCP基础信息中的文本特征为数值特征。使用mlp进行预测,调整模型结构和参数改善f1值和过拟合现象。学习websocket连接进行用户认证的方法。客服系统添加令牌认证功能。
2023-11-26 19:34:38
559
原创 周报_第二十八周
在ISCX和CTU上使用会话粒度、ip对粒度数据训练模型和预测,对比结果后数据粒度定为ip对粒度。分析和选择部分log文件中特征价值。处理文本数据为数值型数据。简单实现在线客服模块。
2023-11-19 20:21:59
226
原创 周报_第二十七周
预处理CTU13数据集,发现里面源ip太少不能像ISCX那样按源ip聚合数据,正在尝试其它方式。预处理ISCX数据集,使用深度学习模型进行预测,取得0.99以上准确度。测试后台管理系统的登录、注册相关接口。
2023-11-13 19:46:08
231
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅