【学习笔记】基于随机森林分类的微博机器用户识别研究

1.基于随机森林分类的微博机器用户识别研究  这篇论文在网上随便找

2.文中提出了8个点来识别是否为机器用户

条件信息熵
内容相似度

互关的比例

发私信率等等

比较难实现的应该是第一个点,条件信息熵,大概是如果发微博的比较规律,那么就可能是机器用户。

内容相似度指用户发布的微博与其他用户微博的相似程度,因为机器用户会伪装(那我的微博全部都是hhhhh 哈哈哈哈 66666 岂不是被识别成机器用户了?)

3.随机森林分类

文章列了很多随机森林分类的优点,比如每个指标只需要包含少量区分信息就可以了,对相关性不是特别敏感,对离散点不敏感等等。

如果不知道什么是随机森林分类,可以先学学决策树。

我决策树是在《机器学习实战》里学的,觉得讲得特别好。

随机森林分类就是很多决策树。

这里决策树的训练还和一般的不同。要有放回地抽样,有随机的特征候选集

在论文里特征候选集m=3,也就是在8个特征里随机挑3个,构造决策树,然后多个决策树一起构成随机森林分类。

4.原始数据集的获取

调用api接口(微博现在有好多限制)和爬虫,人工划分机器学习用户和普通用户

感觉好麻烦啊= =

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值