异常用户发现（Spark MLlib+Spark SQL+DataFrame）

最新推荐文章于 2024-05-23 10:40:35 发布

置顶光于前裕于后

最新推荐文章于 2024-05-23 10:40:35 发布

阅读量3.7k

点赞数

分类专栏：大数据动物园 Spark 大数据基础知识文章标签： spark

本文链接：https://blog.csdn.net/Dr_Guo/article/details/53336785

版权

大数据基础知识同时被 3 个专栏收录

28 篇文章 18 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

大数据动物园

95 篇文章 6 订阅

订阅专栏

Spark

27 篇文章 1 订阅

订阅专栏

本文介绍了如何结合Spark MLlib的机器学习库和Spark SQL的数据处理能力，利用DataFrame API来识别和分析数据中的异常用户行为。通过构建和应用统计模型，如聚类或异常检测算法，来检测可能的异常模式，从而帮助提高数据洞察力和系统安全性。

摘要由CSDN通过智能技术生成

环境：Amabri 2.2.2、HDP 2.4.2、Spark 1.6.1 

***这是我自己东拼西凑整出来的，错误在所难免，但应该也有部分可借鉴之处...***

整体思路：对原始数据提取特征后，使用KMeans做聚类，把元素明显少的类视为异常类，类中的用户视为异常用户，打上标签，之后用随机森林进行分类，
训练出模型后对新数据进行分类，找出异常用户。

之前统计分析、特征工程部分用的MySQL，聚类用了R和Mahout，分类用了MLlib，怎一个乱字了得。我想了想觉得完全可以只用Spark完成。

1.前面的统计分析、特征工程用Spark SQL代替MySQL即可，都是SQL只有部分函数不一样，改一下就行，比较简单不再做了。
（我的原则是能用SQL解决的坚决先用SQL 0.0）

2.将MySQL中的特征表通过Sqoop导入Hive。（Hive和Spark SQL的元数据是共享的）

#因为特征表没有主键，需要切分字段或设置map数为1
[hdfs@ws1dn1 root]$ sqoop import --connect jdbc:mysql://192.168.1.65:3306/v3 --username root -P --table t_log_2016_all --hive-import -m 1