- 博客(50)
- 收藏
- 关注
原创 周报_2024/9/22
1.改进预训练阶段的dataloader读取数据方式并优化各个loss占比,以解决统计特征预测任务loss下降不稳定的问题。(之前逐个读取各类数据的文件,没有打乱。2.使用ISCX数据集构造数据,发现使用的流量统计包遇到某些协议的数据包时会报错,目前正在解决。ISCX数据集上测试模型。
2024-09-22 09:23:12 176
原创 周报_2024/9/15
1.使用多尺度特征融合模型在USTC-TFC数据集上做预训练和微调实验,预训练阶段中预测统计特征的回归任务和同源预测任务loss下降不理想,但是微调效果不错。2.使用邵老师给的模型代码做实验。
2024-09-15 09:25:39 223
原创 周报_2024/8/18
修改了et-bert的微调代码,使用et-bert模型在ISCX-botnet数据集的训练集部分做多分类预测,目前效果:5分类任务,acc=0.9938 (930082/935928)2.处理数据集做成二分类任务,并在test集合中的恶意流量中加入train集中没有的恶意流量类别,预期模型效果一定程度上下降。1.做实验对比et-bert原论文中的数据处理方法和目前自己使用的数据处理方法对分类结果的影响。3.替换模型中的transformer模块。
2024-08-18 09:30:35 140
原创 周报_2024/8/3
使用BERT在原始流量上做分类预测,效果不好。对比别人的论文源码后发现模型结构有问题。对照别人的论文源码修改模型,实现初步效果。
2024-08-03 23:14:08 288
原创 周报_2024/5/5
给邵老师的项目挖掘不同来源的数据的周期性关系汇成表格,制作流量时序特征和统计特征图。使用tokenizers生成网络流量语料库。熟悉商品、购物车模块的逻辑。
2024-05-05 21:24:55 251
原创 周报_2024/4/28
尝试几种特征筛选方法得出的多种特征子集,默认模型效果提升明显但是问题依然存在,且使用特征筛选后triplet loss效果提升不明显。正在给邵老师的项目做周期性模式挖掘,本周构造了周期数据。重新构造了数据集,保留了流级数据的特征和时序特征。
2024-04-28 19:36:33 266
原创 周报_2024/4/21
结果表明triplet loss + 正则对处理概念漂移有利。使用互信息法进行特征筛选,对模型提升较为明显。测试常见聚类算法在数据集上的效果,效果很差。修复客服系统会话管理功能已知的bug。客服系统自动回复增加关键字匹配功能。调研处理概念漂移的方法。
2024-04-21 20:29:13 173
原创 周报_2024/4/14
阅读论文《An efficient feature generation approach based on deep learning and。批量实验各种超参数组合。
2024-04-14 18:03:55 294
原创 周报_第四十七周
整理实验后发现在多次实验下triplet loss带来的平均提升无法与L1等传统抗过拟合方法拉开差距,之前的实验阶段triplet loss提升较大可能是由于实验次数不够出现的偶然现象。目前在多尝试超参数组合并选择结果较好的实验。
2024-03-31 20:44:41 224
原创 周报_第四十五周
将使用triplet loss预训练的模型和最终进行分类的模型结合成多输出模型,两个模型分开训练都没问题,但是结合后loss计算上有bug花了较多时间还没解决。持续调整模型结构尝试获取更好的效果。
2024-03-18 09:28:21 260
原创 周报_第四十四周
通过使用triplet loss预训练以及调整模型参数和结构提升在测试集上的预测效果:目前最好效果:使用triplet loss前后的效果对比:暂无。
2024-03-10 22:28:31 173
原创 周报三十四周
设计实验demo验证在真实数据中做实验发现的一个规律引发的idea(和邵老师讨论后认为idea是成立的)理解ETBERT代码(没看完)
2023-12-31 17:57:29 352
原创 周报_第三十三周
2.读完《ET-BERT A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification》1.分析之前实验用的代码中计算结果对各个特征的梯度的代码(这段代码是网上找的虽然能用但是之前不知道里面具体原理)
2023-12-24 19:21:07 439
原创 周报_第三十二周
读《ET-BERT A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification》
2023-12-17 21:18:13 492
原创 周报_第三十一周
读《ET-BERT A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification》找出预测效果好和差的botnet种类,分析不同botnet种类预测效果不同的原因。开发后台管理系统的统一令牌认证功能供客服系统的客服令牌认证调用。处理客服系统用户认证的一些bug。
2023-12-10 21:16:32 478
原创 周报_第三十周
分析原因:查询数据集中包含的botnet种类发现,ISCX_train和CTU中包含的botnet种类较为接近,而ISCX_test中包含许多ISCX_train和CTU中没有的botnet种类。预处理CTU数据,将其黑白数据占比调整至与ISCX_test一致,使用ISCX_train训练出的模型在CTU预测,对比CTU和ISCX_test的预测结果。实验结果:在ISCX_train集上训练出来的两种模型在ISCX_test集上效果难以提升,但是在CTU上反而效果很好,与之前猜测的结果相反。
2023-12-03 19:33:27 442
原创 周报_第二十九周
分析和选择log文件中的特征,将TCP基础信息中的文本特征为数值特征。使用mlp进行预测,调整模型结构和参数改善f1值和过拟合现象。学习websocket连接进行用户认证的方法。客服系统添加令牌认证功能。
2023-11-26 19:34:38 432
原创 周报_第二十八周
在ISCX和CTU上使用会话粒度、ip对粒度数据训练模型和预测,对比结果后数据粒度定为ip对粒度。分析和选择部分log文件中特征价值。处理文本数据为数值型数据。简单实现在线客服模块。
2023-11-19 20:21:59 109
原创 周报_第二十七周
预处理CTU13数据集,发现里面源ip太少不能像ISCX那样按源ip聚合数据,正在尝试其它方式。预处理ISCX数据集,使用深度学习模型进行预测,取得0.99以上准确度。测试后台管理系统的登录、注册相关接口。
2023-11-13 19:46:08 103
原创 周报_第二十一周
2.处理认证模块遇到的BUG,继续编写认证模块。1.统计ISCX数据集的黑白数据占比等指标。4.处理部分认证模块编写中出现的BUG。3.将数据集处理为可输入模型的格式。2.分割ISOT数据集。1.在数据集上构建模型。
2023-10-01 20:39:27 89
原创 周报_第十九周
数据标签和特征在不同的文件,且没有和特征数据对应的uid字段,只能用包括ip、端口等字段在内五元组进行映射,但标签数据中存在五元组重复但标签不同的情况。目前正在尝试将标签全部处理为二分类标签后再看还有没有上述情况。
2023-09-17 20:59:33 171 1
原创 周报_第十七周
1.做入侵检测二分类的精确度上不去,试过多种网络结构和超参数的组合但效果依旧不好,大概率是数据预处理不够到位。1.复习 动手学深度学习pytorch自然语言处理的两张,看相关视频进行理解。3.论文理解起来有困难,里面用到的bert遗忘较多,需要下周着重复习。2.电脑主板出现故障,售后正在调新主板,大概要一周。1.在UNSW-NB15数据集上做入侵检测二分类。时间:2023.8.27~2023.9.2。2.研读文章ET-BERT,理解行文思路。2.继续研读ET-BERT文章。
2023-09-03 20:48:23 170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人