数据科学论文翻译笔记3-特征离散化对网络用户识别随机森林分类器准确率的影响

主要内容:

在网络中,人们可以通过各种技术来隐藏身份,基于语言或风格特征的识别有利于计算机取证和网络安全。

随机森林的基本思想是构造随机决策树的集合,利用决策树的投票机制实现网络用户识别。连续特征离散化是通过创建一组间隔将连续值特征转换为离散或名义特征的操作。本研究中使用了监督离散化,在这个过程中使用最小描述长度来停止间隔。

在实验中,我们使用了包含不同类型和主题的俄罗斯在线文本语料库,形成8个数据集组(2个不平衡和6个平衡),每个数据集组包含20个数据集,每个数据集包含10个网络用户和他们的文本。训练随机森林分类器,分别计算每个数据集的识别准确率。

在所有实验中,离散化后的准确率都更高。

知识点:

随机森林分类器优势

原文:

Influence of Features Discretization on Accuracy of Random Forest Classifier for Web User Identification
https://pan.baidu.com/s/1sqcznLgkj_zIgIIHyMWw9g

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值