数据科学论文翻译笔记3-特征离散化对网络用户识别随机森林分类器准确率的影响

最新推荐文章于 2020-02-18 19:48:44 发布

M_Carrie

最新推荐文章于 2020-02-18 19:48:44 发布

阅读量459

点赞数

原文链接：https://ieeexplore.ieee.org/abstract/document/8071354/

版权

主要内容：

在网络中，人们可以通过各种技术来隐藏身份，基于语言或风格特征的识别有利于计算机取证和网络安全。

随机森林的基本思想是构造随机决策树的集合，利用决策树的投票机制实现网络用户识别。连续特征离散化是通过创建一组间隔将连续值特征转换为离散或名义特征的操作。本研究中使用了监督离散化，在这个过程中使用最小描述长度来停止间隔。

在实验中，我们使用了包含不同类型和主题的俄罗斯在线文本语料库，形成8个数据集组（2个不平衡和6个平衡），每个数据集组包含20个数据集，每个数据集包含10个网络用户和他们的文本。训练随机森林分类器，分别计算每个数据集的识别准确率。

在所有实验中，离散化后的准确率都更高。

知识点：

随机森林分类器优势

原文：

Influence of Features Discretization on Accuracy of Random Forest Classifier for Web User Identification
https://pan.baidu.com/s/1sqcznLgkj_zIgIIHyMWw9g

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据科学论文翻译笔记3-特征离散化对网络用户识别随机森林分类器准确率的影响

主要内容：在网络中，人们可以通过各种技术来隐藏身份，基于语言或风格特征的识别有利于计算机取证和网络安全。随机森林的基本思想是构造随机决策树的集合，利用决策树的投票机制实现网络用户识别。连续特征离散化是通过创建一组间隔将连续值特征转换为离散或名义特征的操作。本研究中使用了监督离散化，在这个过程中使用最小描述长度来停止间隔。在实验中，我们使用了包含不同类型和主题的俄罗斯在线文本语料库，形成...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。