萧K然-CSDN博客

原创（头歌）【挑战】特征筛选：改善模型性能

基于特征重要性，筛选特征降维，例如主成分分析PCA，线性判别分析LDA，SVD分解等；本关任务：优化数据转换方案，筛选重要的特征，或者对数据特征做合理变换，以提高分类器的性能。最大最小规范化 Z-Score规范化归一化映射到正态分布稀疏数据缩放带离群点的缩放。根据提示，在右侧编辑器补充代码，优化数据预处理方案。准确率高于0.83!

2023-10-29 15:48:05 344 1

max_depth：指定树的最大深度，默认值为-1，表示不做限制，合理的设置可以防止过拟合。min_data_in_leaf：叶节点样本的最少数量，默认值20，用于防止过拟合。feature_fraction：构建弱学习器时，对特征随机采样的比例，默认值为1，取值在(0, 1)之间。objective：用于指定学习任务及相应的学习目标，常用的可选参数值如下： “regression”，使用L2正则项的回归模型（默认值）。本关任务：分析特征，筛选重要的特征，调整分类器参数，以提高分类器的性能。

2023-10-29 15:41:33 168 1

原创 (头歌)【提高】组合优化：提高检测准确率

通过学习已知恶意和正常文件的特征，模型将能够准确分类未知文件，从而有效检测勒索软件的存在。该数据集中包含138047条数据，每条数据包含56个特征以及一个名为“legitimate”的标签，用于指示是否为合法（legitimate）的样本（其中1为合法，0为非法）。通过混淆矩阵，可以计算出一系列分类指标，如准确率、召回率、精确率等，来评估模型的性能和误差。特征重要性是用于了解在机器学习模型中哪些特征对预测结果产生了最大的影响，有助于特征选择、特征工程和模型的解释性。随机森林方法可以用于评估各特征的重要性。

2023-10-13 09:53:17 158

原创（头歌）【基础】决策树检测勒索软件

通过学习已知恶意和正常文件的特征，模型将能够准确分类未知文件，从而有效检测勒索软件的存在。该数据集中包含138047条数据，每条数据包含56个特征以及一个名为“legitimate”的标签，用于指示是否为合法（legitimate）的样本（其中1为合法，0为非法）。平台将根据最后的运行结果进行评测。（2）请点击Jupyter的“保存”按钮，保存代码。勒索软件（Ransomware）是一类恶意软件，其主要目的是通过加密受害者的文件或系统，然后要求受害者支付赎金以获取解密密钥，从而恢复其被锁定的数据和系统。

2023-10-13 08:54:26 702

原创 Linux(centos)搭建pikachu靶场（使用LAMP搭建）

将下载的靶场文件放入apache服务器的根目录下（若var下没有www则自己创建。可以通过git下载，也可以通过本地下载再上传到Linux。安装Mysql（MariaDB。若需要修改apache的端口号。这里选择pikachu靶场。以上安装完成lamp环境。配置pikachu靶场。使用LAMP框架搭建。配置Mysql数据库。

2023-10-09 21:11:59 394 1

原创（头歌）【提高】可视化探索：系统故障数据处理

探索一个系统故障数据，去除重复值，绘制不同label下feature5的分布散点图，绘制feature86的KDE分布图，针对feature86进行最小-最大规范化操作后，再次绘制feature86的KDE分布图。（2）请点击Jupyter的“保存”按钮，保存代码。在模型训练过程中去除重复值是一个常见的预处理步骤，这能够降低模型训练过程中过拟合的风险，提升模型的泛化能力。最常规的可视化方式包括绘制与数据特征相关的散点图、柱状图、箱线图等，以此更好的查看数据特征与标签之间的关系。

2023-10-08 20:55:10 148 1

原创（头歌）【基础】数据清洗与转换——金融欺诈数据处理

sklearn.preprocessing.OrdinalEncode可以用于常规的转码，调用其fit_transform()，即可完成数据的转码，并返回numpy数组类型的转换结果。scikit-learn含有多种数据规范化工具，例如sklearn.preprocessing的StandardScaler，可以将数据规范化为均值为0，方差为1。最常规的数据编码方式为，将有限个符号转码为0，1，2，等数值。基本策略包括，将缺失值填充为0，1，最大值，最小值，平均值，中位数，或者概率最大的，即众数。

2023-10-07 09:39:58 427 1