异常用户发现（Spark MLlib+Spark SQL+DataFrame）

最新推荐文章于 2023-03-01 18:16:52 发布

置顶光于前裕于后

最新推荐文章于 2023-03-01 18:16:52 发布

阅读量3.6k

点赞数

分类专栏：大数据动物园 Spark 大数据基础知识文章标签： spark

本文链接：https://blog.csdn.net/dr_guo/article/details/53336785

版权

大数据基础知识同时被 3 个专栏收录

28 篇文章 18 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

大数据动物园

94 篇文章 5 订阅

订阅专栏

Spark

27 篇文章 1 订阅

订阅专栏

环境：Amabri 2.2.2、HDP 2.4.2、Spark 1.6.1 

***这是我自己东拼西凑整出来的，错误在所难免，但应该也有部分可借鉴之处...***

整体思路：对原始数据提取特征后，使用KMeans做聚类，把元素明显少的类视为异常类，类中的用户视为异常用户，打上标签，之后用随机森林进行分类，
训练出模型后对新数据进行分类，找出异常用户。

之前统计分析、特征工程部分用的MySQL，聚类用了R和Mahout，分类用了MLlib，怎一个乱字了得。我想了想觉得完全可以只用Spark完成。

1.前面的统计分析、特征工程用Spark SQL代替MySQL即可，都是SQL只有部分函数不一样，改一下就行，比较简单不再做了。
（我的原则是能用SQL解决的坚决先用SQL 0.0）

2.将MySQL中的特征表通过Sqoop导入Hive。（Hive和Spark SQL的元数据是共享的）

#因为特征表没有主键，需要切分字段或设置map数为1
[hdfs@ws1dn1 root]$ sqoop import --connect jdbc:mysql://192.168.1.65:3306/v3 --username root -P --table t_log_2016_all --hive-import -m 1

3.使用Spark MLlib进行聚类、分类，注意与[Spark MLlib RandomForest（随机森林）建模与预测]
(http://blog.csdn.net/dr_guo/article/details/53258037)的区别，这里是对DataFrame操作的，那篇博客是对RDD操作的。

请注意包名与类名不同org.apache.spark

了解本专栏

超级会员免费看

光于前裕于后

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
异常用户发现（Spark MLlib+Spark SQL+DataFrame）

整体思路：对原始数据提取特征后，使用KMeans做聚类，把元素明显少的类视为异常类，类中的用户视为异常用户，打上标签，之后用随机森林进行分类，训练出模型后对新数据进行分类，找出异常用户。
复制链接

扫一扫