主要内容:
在网络中,人们可以通过各种技术来隐藏身份,基于语言或风格特征的识别有利于计算机取证和网络安全。
随机森林的基本思想是构造随机决策树的集合,利用决策树的投票机制实现网络用户识别。连续特征离散化是通过创建一组间隔将连续值特征转换为离散或名义特征的操作。本研究中使用了监督离散化,在这个过程中使用最小描述长度来停止间隔。
在实验中,我们使用了包含不同类型和主题的俄罗斯在线文本语料库,形成8个数据集组(2个不平衡和6个平衡),每个数据集组包含20个数据集,每个数据集包含10个网络用户和他们的文本。训练随机森林分类器,分别计算每个数据集的识别准确率。
在所有实验中,离散化后的准确率都更高。
知识点:
随机森林分类器优势
原文:
Influence of Features Discretization on Accuracy of Random Forest Classifier for Web User Identification
https://pan.baidu.com/s/1sqcznLgkj_zIgIIHyMWw9g