- 博客(2)
- 收藏
- 关注
原创 hadoop
Hadoop的概念: Apache™ Hadoop® 是一个开源的, 可靠的 (reliable), 可扩展 的(scalable) 分布式计算框架 分布式计算框架:使用简单的编程模型,处理存储在计算机集群上的大规模数据集(数据分布式存储) 可扩展:从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储 可靠的: 不依靠硬件来提供高可用性(high-availability),而是在应用层检测和处理故障,从而在计算机集群之上提供高可用服务 Hadoop能做什么? 搭建大型数据仓..
2020-11-02 23:47:11 139 1
原创 面试总结文档
Q:简单描述一下风控建模的流程? 前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解,明确好模型的作用,项目周期时间和安排进度,以及模型效果的要求。 模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型的细分,是否需要做拒绝推论,观察期,表现期的定义,好坏用户的定义,数据的获取途径等都要确定好。 数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行前期的数据清洗和稳定性验证工作,数据清洗包括用户唯一性检查,缺失值检查,异常值检查等。稳定性验
2020-10-21 23:55:48 1602
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人