【学习笔记】基于随机森林分类的微博机器用户识别研究

最新推荐文章于 2023-09-04 20:10:11 发布

jjj6666

最新推荐文章于 2023-09-04 20:10:11 发布

阅读量634

点赞数

分类专栏：机器学习文章标签：机器学习微博

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ludiao1428/article/details/78491127

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.基于随机森林分类的微博机器用户识别研究这篇论文在网上随便找

2.文中提出了8个点来识别是否为机器用户

条件信息熵
内容相似度

互关的比例

发私信率等等

比较难实现的应该是第一个点，条件信息熵，大概是如果发微博的比较规律，那么就可能是机器用户。

内容相似度指用户发布的微博与其他用户微博的相似程度，因为机器用户会伪装（那我的微博全部都是hhhhh 哈哈哈哈 66666 岂不是被识别成机器用户了？）

3.随机森林分类

文章列了很多随机森林分类的优点，比如每个指标只需要包含少量区分信息就可以了，对相关性不是特别敏感，对离散点不敏感等等。

如果不知道什么是随机森林分类，可以先学学决策树。

我决策树是在《机器学习实战》里学的，觉得讲得特别好。

随机森林分类就是很多决策树。

这里决策树的训练还和一般的不同。要有放回地抽样，有随机的特征候选集

在论文里特征候选集m=3，也就是在8个特征里随机挑3个，构造决策树，然后多个决策树一起构成随机森林分类。

4.原始数据集的获取

调用api接口（微博现在有好多限制）和爬虫，人工划分机器学习用户和普通用户

感觉好麻烦啊= =

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】基于随机森林分类的微博机器用户识别研究

1.基于随机森林分类的微博机器用户识别研究这篇论文在网上随便找2.文中提出了8个点来识别是否为机器用户比较难实现的应该是第一个点，条件信息熵，大概是如果发微博的比较规律，那么就可能是机器用户。内容相似度指用户发布的微博与其他用户微博的相似程度，因为机器用户会伪装（那我的微博全部都是hhhhh 哈哈哈哈 66666 岂不是被识别成机器用户了？）3.随机森林分类文章列了
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。