大数据之路——数据挖掘

最新推荐文章于 2024-06-04 19:54:39 发布

jialun0116

最新推荐文章于 2024-06-04 19:54:39 发布

阅读量1.6k

点赞数

分类专栏：大数据大数据之路总结文章标签：数据挖掘 big data 算法

本文链接：https://blog.csdn.net/qq_30031221/article/details/121295472

版权

大数据同时被 2 个专栏收录

52 篇文章 20 订阅

订阅专栏

大数据之路总结

15 篇文章 8 订阅

订阅专栏

七、数据技术篇—— 数据挖掘

数据挖掘技术与数据仓储和计算技术发展相辅相成，挖掘有效数据信息

企业级数据挖掘包含两个要素：

面向计算器学习算法的并行计算框架与算法平台；
面向企业级数据挖掘的算法资产管理体系。

7.1 数据挖掘算法平台

汇集了大量优质的分布式算法，包括数据处理、特征工程、机器学习算法等，可高效地完成海量、亿级维度数据的复杂计算（海量样本的高维度特征训练时必备要素）

MPI是一种基于消息传递的并行计算框架，没有IO操作。
请添加图片描述

7.2 数据挖掘中台体系

将一些通用的技术集成起来形成中台技术体系，提供统一、高效的技术服务，避免资源浪费与时间消耗。

一次数据挖掘的过程：商业理解 -> 数据准备 -> 特征工程 -> 模型训练 -> 模型测试 -> 模型部署 -> 线上应用 -> 效果反馈。

数据挖掘的商业场景

个体挖掘应用，对单个实体的行为特征进行预测分析，如预测商品的销量等
关系挖掘应用，研究多个实体间的关系特征，如商品的相似关系

数据挖掘技术要素

数据，数据是起源也是最终承载形式，源于数据高于数据
算法，是神经中枢，进行加工

7.2.1 挖掘数据中台

请添加图片描述

特征层 Featural Data Mining Layer（FDM）。存储训练前常用的特征指标，统一清洗和去噪处理。
中间层
- 个体中间层 Individual Data Mining Layer。面向个体挖掘场景，存储通用性强的结果数据
- 关系中间层 Relational Data Mining Layer。面向关系挖掘场景，存储通用性强的结果数据
应用层 Application-oriented Data Mining Layer （AD）。沉淀比较个性偏应用的数据挖掘指标，经过深度加工

7.2.2 挖掘算法中台

比较难的是在理解原理的基础上结合业务使用算法。希望有一套类似于评分卡建模的方法论和实操模版。

个体挖掘：消费者画像与业务指标预测比较有代表性

关系挖掘：相似关系和竞争关系

7.3 数据挖掘案例

7.3.1 用户画像

背景：传统获取用户反馈信息耗时长、结果缺失

转折点：大数据环境，能快速获取海量用户行为并精确分析人群偏好

什么是用户画像：为用户打上各种标签，如年龄、性别、职业、商品类别偏好等

分类：基础属性、购物偏好、社交关系、财富属性

用户标签如何基于全域数据产出？女装风格偏好为例

女装有哪些风格？将女装行业下的商品标题文本提取出后，进行分词（去除无效的词可用TF-IDF），得到女装描述词库
如果商品描述中已经包含一种风格，就可以计算词库中词语和商品描述的相似度，过滤得到女装风格词库
用无监督学习LDA等可以计算出一种风格包含的词汇和词汇的重要性
根据买家的浏览、搜索、加购物车等行为，考虑风格元素组成
选择合适的进行推荐

7.3.2 反作弊

反作弊的使用方面

账户/资金安全与网络欺诈防控
非人行为和账户识别
虚假订单与信用炒作识别
广告推广与APP安装反作弊
UGC恶意信息检测

反作弊方法

基于业务规则。优点：精度高、可解释性强，能识别老的作弊方式。缺点：人力成本高，滞后性强
基于有监督学习的方法。优点：通用性强，人力成本在样本标注。缺点：解释性不强，易错判
基于无监督学习的方法。优点：异常检测，不需要标记样本。缺点：特征设计和提取工作量大
多媒体数据处理
图计算模型

反作弊分类

离线反作弊。通过对历史行为和业务规则的沉淀，来判断未来行为的作弊情况。优点：准确率高，历史数据越多越准。缺点：时效性差
实时反作弊。在满足基本准确率和覆盖率的前提下抽取计算速度比较快的部分。

挑战

作弊手段的多样性和多变性
算法的及时性和准确性
数据及作弊手段的沉淀和逆向反馈

jialun0116

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据之路——数据挖掘

七、数据技术篇—— 数据挖掘7.1 数据挖掘算法平台7.2 数据挖掘中台体系7.2.1 挖掘数据中台7.2.2 挖掘算法中台7.3 数据挖掘案例7.3.1 用户画像7.3.2 反作弊数据挖掘技术与数据仓储和计算技术发展相辅相成，挖掘有效数据信息企业级数据挖掘包含两个要素：面向计算器学习算法的并行计算框架与算法平台；面向企业级数据挖掘的算法资产管理体系。7.1 数据挖掘算法平台汇集了大量优质的分布式算法，包括数据处理、特征工程、机器学习算法等，可高效地完成海量、亿级维度数据的复杂计算（海量
复制链接

扫一扫

专栏目录