1.基于随机森林分类的微博机器用户识别研究 这篇论文在网上随便找
2.文中提出了8个点来识别是否为机器用户
条件信息熵
内容相似度
互关的比例
发私信率等等
比较难实现的应该是第一个点,条件信息熵,大概是如果发微博的比较规律,那么就可能是机器用户。
内容相似度指用户发布的微博与其他用户微博的相似程度,因为机器用户会伪装(那我的微博全部都是hhhhh 哈哈哈哈 66666 岂不是被识别成机器用户了?)
3.随机森林分类
文章列了很多随机森林分类的优点,比如每个指标只需要包含少量区分信息就可以了,对相关性不是特别敏感,对离散点不敏感等等。
如果不知道什么是随机森林分类,可以先学学决策树。
我决策树是在《机器学习实战》里学的,觉得讲得特别好。
随机森林分类就是很多决策树。
这里决策树的训练还和一般的不同。要有放回地抽样,有随机的特征候选集
在论文里特征候选集m=3,也就是在8个特征里随机挑3个,构造决策树,然后多个决策树一起构成随机森林分类。
4.原始数据集的获取
调用api接口(微博现在有好多限制)和爬虫,人工划分机器学习用户和普通用户
感觉好麻烦啊= =