目录
数据质量诊断目的
在建模之前需要对数据进行探索和数据质量诊断,主要目的如下。
- 确保数据提取无误
- 通常提取数据并非由分析建模师自行完成,而是由数据分析建模师提出数据需求,由数据部门协助完成数据的提取工作。在此过程中,可能出现数据逻辑传达不清、理解不准确或者提取数据有技术性销误(编码错误、串行、串列、截断等)等问题,导致数据有误(操作型错误)。
- 理解数据逻辑
- 通过数据探索和质量诊断,可以更准确和深入地理解数据逻辑。对于数据逻辑的获得途径,一方面可以通过数据访谈,从数据拥有方和管理方进行了解;另一方面是获取数据之后自行探索数据,对之前了解的数据逻辑进行验证,或者探索性发现和确认数据逻辑。需要注意的是,通过数据拥有方和管理方获得的数据逻辑未必准确,因此自行对数据做进一步的检查和确认是有必要的。
- 检查数据质量和可用性
- 检查和分析数据质量,主要包括数据的正确性、完整性、数据的价值和可用性。
- 为模型设计提供依据
- 基于数据质量分析结果,重点确认样本量、好坏样本量是否充足等,判断是否足够支撑建模,为后续建模的样本范围确定提供依据。
业务数据分析
在业务分析环节,数据分析师通常面临的问题是不知道要分析什么以及怎么分析
业务数据分析目的
在完成数据预处理和数据质量诊断后,需要围绕建模目标,基于数据对业务进行初步分析,主要目的如下。
-
进一步理解业务逻辑
- 通过数据质量诊断可以理解数据逻辑,对业务逻辑的理解也是类似的,业务逻辑一方面是通过前期业务访谈,通过业务部门和数据部门进行了解;另一方面是获得数据之后,通过对数据进一步分析,对之前了解的业务逻辑进行验证,或者通过探索性分析发现和确认业务逻辑。需要特别注意的是,通过业务部门和数据部门获知的业务逻辑未必准确,所以自行基于数据分析进行业务理解是有必要的。
-
为模型设计提供依据
- 基于数据分析可以对业务情况有一个初步理解,包括业务发展情况、客群分布情况、产品分布情况、风险表现情况以及典型风险点和风险特征等。此外,模型设计需要的三大基础分析包括Vintage分析、逾期趋势分析、滚动率分析等,一般也在该阶段完成。
业务数据分析方法
在业务分析环节,数据分析师通常面临的问题是不知道要分析什么以及怎么分析
-
分析内容
- 1)业务发展情况。
- 2)客群分布情况。
- 3)产品分布情况。
- 4)分渠道、分客群、分产品、分账龄的风险表现情况。
- 5)模型设计所依赖的Vintage分析、逾期趋势分析、滚动率分析等。
-
分析方法
- 1)频数统计占比分析,例如统计各类产品的数量和占比。
- 2)趋势分析:添加时间维度,统计逐月的业务发展和风险表现情况。
- 3)比值分析。
- 4)多维度交叉表。
print('明天除夕')
print('祝大家新年快乐!')