数据技术之数据挖掘

Listen·Rain

已于 2022-12-14 15:04:58 修改

阅读量1.3k

点赞数

分类专栏：大数据之路书籍阅读文章标签：数据挖掘聚类人工智能

于 2022-12-14 09:56:57 首次发布

本文链接：https://blog.csdn.net/qq_46517733/article/details/128311288

版权

大数据之路书籍阅读专栏收录该内容

15 篇文章 6 订阅

订阅专栏

第7章数据挖掘

1.什么是数据挖掘

数据挖掘(Data Mining)就是从大量的数据中，提取隐藏在其中的，事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型，根据过去的行动数据来预测未来的行为。

2.阿里数据挖掘平台

阿里巴巴的算法平台选用MPI作为基础计算框架，其核心机器学习算法的开发都是基于阿里云MaxCompute的MPI实现的。
MaxCompute MPI处理流程图如下：
在这里插入图片描述

伏羲：阿里云飞天系统的分布式调度系统
女娲：阿里云飞天系统的分布式一致性协同服务系统
盘古：阿里云飞天系统的分布式文件存储系统

基于MaxCompute MPI的机器学习算法如下：

分类	具体算法
分类算法	LogisticRegression、kNN、GBDT、DTC5.0、Randomforest、linearSVM、nonlinearSVM、NavieBayes、Bayes、Fisher 判别、马氏距离判别、标签传播分裂等
回归算法	LinearRegression、GBDT、LASSO、RidgeRegression、Factorization Machines、XGBoost等
聚类算法	K-Means、Canopy、PSC普聚类、标签传播聚类、EM 聚类等
推荐算法	etrec 协同过滤、 SVD协同过滤、 ALS协同过滤等
深度学习	Word2Vec、Doc2Vec、CNN、DBN、DeepMatchModel等
其他	PageRank、LOA、pLSA、关联规则、NMF、CRF、SVD、RankSVM、PCA、kcore、sssp、Modularity 计算等

注：etrec 是阿里巴巴集团搜索算法团队开发的运行于 MaxCompute 上的基于商品的协同过滤算法

3.数据挖掘中台体系

挖掘数据中台

数据挖掘的过程中包含两类数据：

特征数据
结果数据

数据中台分为三层：

特征层（ Featural Data Mining Layer, FDM )
中间层：
个体中间层（ Individual Data Mining Layer, IDM ）
关系中间层（ Relational Data Mining Layer, RDM ）
应用层（ Application-oriented Data Mining Layer, ADM ）

在这里插入图片描述

FDM层：用于存储在模型训练前常用的特征指标，并进行统一的清洗和去噪处理，提升机器学习特征工程环节的效率。
IDM层：个体挖掘指标中间层，面向个体挖掘场景，用于存储通用性强的结果数据，主要包含商品、卖家、买家、行业等维度的个体数据挖掘的相关指标
RDM层：关系挖掘指标中间层，面向关系挖掘场景，用于存储通用性强的结果数据，主要包含商品间的相似关系、竞争关系，店铺间的相似关系、竞争关系等。
ADM 层：用来沉淀比较个性偏应用的数据挖掘指标，比如用偏好的类目、品牌等，这些数据已经过深度的加工处理，满足某一特点业务或产品的使用。