1、python挖掘建模流程

目录

1 定义目标

2 数据采集

2.1 抽取数据的标准

2.2  衡量数据的质量标准

2.3 基于挖掘目标需要的数据源

2.4 在这些数据源中抽取用于建模的主要内容

3、数据探索

3.1 数据质量分析

3.2  数据特征分析

3.3 主要数据探索函数

4 数据预处理

4.1 数据清洗

4.2 数据集成

4.3 数据变换

4.4 数据规约

5 构建模型

6 模型发布


1 定义目标

例如:

针对餐饮行业的数据挖掘应用:

01 实现动态菜品的只能推荐,帮助顾客快速发现自己感兴趣的菜品,实现餐饮消费者和餐饮企业的双赢


02 对餐饮客户进行细分,了解不同价值的客户采取不同的营销策略,将有限的资源投放到最有价值的客户身上,实现精准话营销。

03 基于餐饮大数据,优化新店选址,并对新店所在位置的潜在顾客口味偏好进行分析,以便进行菜市调整。

2 数据采集

2.1 抽取数据的标准

01 相关性
02 可靠性
03 有效性

进行数据取样,一定要严格把手质量关。

2.2  衡量数据的质量标准

01 资料完整无缺,各类指标项齐全
02 数据准确无误,反映的都是正常状态下的水平,而不是异常状态下的水平。

# 随机抽样
在采用随机抽样的方式时,数据集中的每一组观测值都有相同的被抽样的概率。例如:按照10%的比例对一个数据集进行随机抽样,每一组观测值都有10% 的机会被抽到。

# 等距抽样:
如按照5%的比例对一个有100组观测值的数据集进行灯具抽样,则有100/5=20,等距抽样取20、40、60、80、100这5组观测值

# 分层抽样:

将总体样本分成若干层次。在每个层次中的观测值都有具有被选中的概率,但是不同的层次可设定不同的概率。

# 分类抽样

分类抽样依据某种属性的取值来选择子集,例如:客户名称、地域

2.3 基于挖掘目标需要的数据源

客户关系管理系统
前厅关系管理系统
后厨管理系统
财务管理系统
物资管理系统

2.4 在这些数据源中抽取用于建模的主要内容

01 参营企业信息:名称、未知、规模、联系方式、部门、人员、角色

02 餐饮客户信息:姓名、联系方式、消费时间、消费金额

03 餐饮企业菜品信息: 菜品名称、菜品单价、菜品成本、所属部门等

04 菜品销量数据: 菜品名称、
销售日期、销售金额、销售份数

05 原材料供应商资料及商品数据:
供应商姓名、联系方式、商品名称、客户评价信息

06 促销活动数据:促销日期、促销内容、促销描述

07 外部数据:如天气、节假日、竞争对手以及周边商业氛围

3、数据探索

3.1 数据质量分析

检查原始数据中是否有脏数据
脏数据类型包括:

缺失值、
异常值、
不一致的值、
重复数据以及含有特殊符号(如#、¥、*)
 

3.2  数据特征分析

01 分布分析

02 对比分析

03 统计量分析

集中分析和离中分析

集中:均值、中位数、众数

离中:极差、标准差、变异系数、四分位差距

04 周期性分析

05 贡献度分析(2/8)

06 相关性分析

3.3 主要数据探索函数

01 基本统计函数

基本特征函数用于计算数据的均值、方差、标准差、分位数、相关系数和协方差


sum
mean()
var() 计算数据样本的标准差
corr()计算数据样本的spearman(pearson)先关系数矩阵
cov()计算数据样本的协方差矩阵

skew() 样本值得偏度(三阶矩)

kurt()样本值的峰度(四阶矩)

describe() 给出样本的基本描述

02 拓宽统计函数

主要有累计计算(cum)和滚动计算(pd.rolling_)

cummax() 以此给出前1,2,,,,n个数的最大值

rolling_sum() 计算数据样本的综合(按列计算)等等

03  统计作图函数

通过统计作图函数绘制的图表可以直观地反映出数据及统计量的性质及其内在规律

例如:

盒图可以表示多个样本的均值

误差条形图能同时显示下限误差和上限误差,最小二乘法拟合曲线图能分析两变量间的关系

plot()绘制二维图,折线图
pie() 饼形图
hist() 二位条形直方图

boxplot() 样本数据的箱型图

plot(logy=true) 绘制y周的对数图形

plot(yerr=erro) 绘制误差条形图
 

4 数据预处理

4.1 数据清洗

01 缺失值处理

02 异常值处理

4.2 数据集成

01 实体识别

同名异义、 异名同义、 单位不统一

02 冗余性识别

 同一属性多次出现、 同一属性命名不一致导致重复

4.3 数据变换

01 简单的函数变换

简单函数变换是对原始数据进行某些函数变换,常用的变换包括

## 平方、开方、取对数、差分运算等

02 规范化

0-1标准化、零-均值规范化、Z标准化

03 连续属性离散化

一些数据挖掘算法,特别是某些分类算法(ID3,Apriori算法),要求数据是分类属性形式,这样,常常需要将连续属性离散化

常用方法:等宽、等频、聚类

04 属性构造

在数据挖掘的过程中,为了提取更有用的信息,挖掘更深层次的模式,提高挖掘结果的精度,我们需要利用已有的属性集构造出新的属性,并加入到现有的属性集合中。

比如:进行窃电诊断建模的时候;增加线损率

05 小波变换

小波分析的理论和方法在信号处理、图像处理、语音处理、模式识别、量子物理等=领域得到越来越广泛的应用。
 

4.4 数据规约

01 属性规约

属性规约通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数,从而提高数据挖掘的效率、降低计算成本

02 数值规约

数值规约是指通过选择替代的、较小的数据来减少数据量,,包括有参数方法和无参数方法两类。

5 构建模型

样本抽取完成并经过预处理后,接下来要考虑的问题是:

本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或只能推荐)选用那种算法进行模型构建

这是核心环节

6 模型发布

 


 

 

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值