sgoes-CSDN博客

转载 hive之Json解析(普通Json和Json数组)

hive之Json解析(普通Json和Json数组)来自：https://www.cnblogs.com/yfb918/p/10644262.html一、数据准备现准备原始json数据(test.json)如下：复制代码{“movie”:“1193”,“rate”:“5”,“timeStamp”:“978300760”,“uid”:“1”}{“movie”:“661”,“rate”:“3”,“timeStamp”:“978302109”,“uid”:“1”}{“movie”:“914”,“ra

2021-02-23 15:45:28 378

转载客户层申请评分卡(A卡)模型

风控业务背景不夸张地说，贷前风控可覆盖80%的风险，这是业内普遍共识，当然更是信贷风控的内在需要，毕竟放款后就只能靠催收尽可能减少损失，而放款前能做到避免资损。申请评分卡（Application Scoring）就像是在申请时给消费者照一张相，然后与借款后一段时间的另一张照片对比。它只是将申请者的静态特征与未来固定时期后的静态状态的好坏标签进行比较。目前，鲜有资料讨论如何构建产品层、客户层A卡。本文以贷前授信风控模型为例，介绍客户层申请评分卡的一些构建思路。目录Part 1. 产品层和客户层评分

2020-07-17 19:04:21 1448

转载数据值缺失处理

以下文章来源于数据派THU ，作者数据派THU作者：Leopold d’Avezac 翻译：廖倩颖校对：杨毅远本文长度为1900字，建议阅读8分钟本文为大家介绍了数据缺失的原因以及缺失值的类型，最后列举了每一种缺失值类型的处理方法以及优缺点。不论是机器学习模型，KPI或者报告，缺失值和它们的替代值都会导致你的分析结果出现巨大错误。通常分析人员只用一种方式处理缺失值。但事实并非如此，下面我们会介绍三种类型的缺失值以及其对应的解决方法。**空值（null）的类型**随机遗失（MAR）：

2020-07-16 18:31:31 748

原创 task4:二手车价格预测的模型结果融合-学习笔记

模型融合方法学习总结　　一般来说，通过融合多个不同的模型，可能提升机器学习的性能，这一方法在各种机器学习比赛中广泛应用，比如在kaggle上的otto产品分类挑战赛①中取得冠军和亚军成绩的模型都是融合了1000+模型的“庞然大物”。https://www.cnblogs.com/libin47/p/11169994.html常见的集成学习&模型融合方法包括：1，简单加权融合：a，...

2020-04-04 19:54:56 721

原创 task3:二手车价格预测的建模与调参-学习笔记

1，模型：1)，线性回归模型https://zhuanlan.zhihu.com/p/494803912)，决策树模型https://zhuanlan.zhihu.com/p/653047983)，GBDT模型https://zhuanlan.zhihu.com/p/451458994)，XGBoost模型https://zhuanlan.zhihu.com/p/45145899...

2020-04-01 19:07:27 610

原创 task2:二手车价格预测的特征工程-学习笔记

在特征清洗时，我们已经处理过一部分的特征，包括缺失值处理，异常值处理，数据分桶，特征的归一化和标准化。同时，特征工程还包括特征构造，特征选择，降维处理。1，异常值处理常用方法包括：1）箱线图分析2）box-cox转换（处理有偏分布）3）长尾截断2，特征归一化和标准化1）标准化的目的是为了转换为标准正态分布，常见的方法线性最大值法，对数法2）归一化的目的是为了转换到【0，1】区间3...

2020-03-28 19:42:03 291

原创 task1:二手车价格预测的EDA-学习笔记

task1: second_hand_car_sale_price_predict1）通过这次学习总体过了一遍EDA的流程EDA的目的是为了初步探索熟悉数据，包括数据总览，了解变量间的相关性及变量与预测值之间的存在关系。预测值的分布：这点我没有太熟悉，之前不了解。下次需要着重总结下。EDA与特征工程处理之间的关系，还需要再进一步学习，感觉EDA主要是初略统计预览，特征工程是细调。2）学...

2020-03-24 19:46:23 201

原创 SQL纵列单元值分组合并

原表id,task_id,current_unit_id42688645,30404829,10442688647,30404829,12842688648,30404829,11742688650,30404829,11842688652,30404829,11942688653,30404829,12042688682,30404842,10442688683,30404842,1284268...

2018-07-05 14:37:02 266

转载机器学习_聚类_k-means

聚类算法（1）k-meanshttp://www.cnblogs.com/lc1217/p/6893924.html1.简介K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。2. 算法大致流程为： 1）随机选取k个点作为种子点(这k个点不一定属于数据集) 2）分别计算每个数据点到k个种子点的...

2018-05-25 16:51:55 220