数据科学 案例篇
数据处理,实战演练
irober
这个作者很懒,什么都没留下…
展开
-
机器学习:特征选择(feature selection)2020
特征选择常见方法Filter1、去掉取值变化小的特征(Removing features with low variance)2、单变量特征选择 (Univariate feature selection)Wrapper3、递归特征消除 (Recursive Feature Elimination)Embedding4、使用SelectFromModel选择特征 (Feature selection using SelectFromModel)5、将特征选择过程融入pipeli转载 2020-09-30 14:49:08 · 1588 阅读 · 0 评论 -
数据科学 案例14 推荐算法Apriori案例
数据科学 案例14 推荐算法Apriori案例16 推荐算法案例16.1 Apriori包编写1、Sort Phase2、Litemset Phase3、Transformation Phase4、Sequence Phase5、Maximal Phase6、aprioriAll16.1 调用现成Apriori包16 推荐算法案例16.1 Apriori包编写seq1 = [ ...原创 2020-03-16 11:12:15 · 516 阅读 · 0 评论 -
数据科学 案例12 变量压缩与聚类之精准营销完整流程(代码)
数据科学 案例12 变量压缩与聚类之精准营销完整流程(代码)14 变量压缩与聚类之精准营销一、 数据获取与导入的S(抽样)阶段。1、规整数据集2、筛选预测能力强的变量3、根据IV值筛选变量 - 分类变量4、根据IV值筛选变量-连续变量三、针对每个变量的E(探索)阶段1、对连续变量的统计探索2、对分类变量的统计探索四、针对有问题的变量进行修改的M(修改)阶段1、将连续变量的错误值改为缺失值2、将连续...原创 2020-03-12 11:56:10 · 766 阅读 · 4 评论 -
数据科学 案例11 变量压缩(代码)
数据科学 案例11 变量压缩13 变量压缩13.1 贷款应用一、主成分分析1、数据导入2、查看相关系数矩阵,判定做变量降维的必要性(非必须)3、做主成分之前,进行中心标准化4、使用sklearn的主成分分析,用于判断保留主成分的数量13.2 经济发展一、主成分分析1、数据导入2、查看相关系数矩阵,判定做变量降维的必要性(非必须)3、做主成分之前,进行中心标准化4、使用sklearn的主成分分析,用...原创 2020-03-06 16:00:36 · 775 阅读 · 0 评论 -
数据科学 案例10 组合模型之宽带营销(代码)
数据科学 案例10 组合模型之宽带营销(代码)组合模型1、导入数据2、决策树算法2.1 构建模型2.2 打印结果3、随机森林3.1 构建模型3.2 打印结果3.3 打印最优参数4、Adaboost算法4.1 构建模型4.2 打印结果4.3 打印最优参数5、GBDT5.1 构建模型5.2 打印结果4.3 打印最优参数组合模型from sklearn.model_selection import ...原创 2020-03-03 11:27:11 · 382 阅读 · 0 评论 -
数据科学 案例9 不平衡数据问题及处理(代码)
数据科学 案例9 不平衡数据问题及处理(代码)11 不平衡数据问题及处理1、导入数据2、查看样本分布3、样本不均衡问题处理3.1 采用抽样方法3.2 改变样本权重11 不平衡数据问题及处理import osimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt1、导入数据train = pd.read...原创 2020-03-03 11:21:21 · 978 阅读 · 1 评论 -
数据科学 案例7 决策树之电脑购买(代码)
数据科学 案例7 决策树之电脑购买(代码)9 决策树1、导入数据2、CART算法(分类树)2.1 建立CART模型2.2 可视化9 决策树import osimport pandas as pd1、导入数据data = pd.read_csv(r'./data/AllElectronics.csv',encoding='gbk', skipinitialspace=True) #, s...原创 2020-02-26 10:15:39 · 3336 阅读 · 0 评论 -
数据科学 案例5 Logistic回归之构建初始信用评级和分类模型检验(代码)
数据科学 案例5 Logistic回归之构建初始信用评级和分类模型检验(代码)8 逻辑回归1、导入数据和数据清洗2、衍生变量:3、分类变量的相关关系3.1 交叉表3.2 列联表4、线性回归4.1 数据预处理(字符型转化为数值型,查看变量间的关系)4.2 随机抽样,建立训练集与测试集4.3 线性回归4.4 预测4.5 模型评估1、设定阈值2、混淆矩阵3、计算准确率4、绘制ROC曲线5、逻辑回归5.1...原创 2020-02-26 09:57:27 · 1774 阅读 · 0 评论 -
数据科学 案例8 神经网络之电信客户流失(代码)
数据科学 案例5 神经网络之电信客户流失1、导入数据和数据清洗2、神经网络2.1 划分训练集和测试集2.2 极差标准化(神经网络一定要做)2.3 调用神经网络包3、预测3.1 预测分类标签3.1 预测概率4、验证4.1 平均精度4.2 ROC曲线4.3 模型优化本案例采用BP神经网络模型。import osimport numpy as npimport pandas as pdimpo...原创 2020-02-26 09:33:23 · 1379 阅读 · 1 评论 -
数据科学 案例4 线性回归之房价预测(代码)
数据科学 案例4 房价预测(代码)Step1:描述性统计1、简单预处理2、因变量(price)1)因变量直方图2)查看因变量的均值、中位数和标准差等更多信息3)查看因变量最高和最低的两条观测2、自变量1)整体来看(连续变量与分类变量分开)2) 变量dist3) roomnum4) halls5) floor6) subway+school (stack2dim函数)7) AREASteo2:建模1...原创 2020-02-21 12:15:00 · 1756 阅读 · 4 评论 -
数据科学 案例3 线性回归之汽车贷款(代码)
数据科学 案例3 线性回归之汽车贷款(代码)7 线性回归模型与诊断Step1、导入数据和数据清洗Step2、相关性分析Step3、线性回归算法1、简单线性回归3、多元线性回归3.1 多元线性回归的变量筛选Step4、残差分析Step5、强影响点分析Step6、多重共线性分析(vif函数)Step7、正则算法1、岭回归2、使用scikit-learn进行正则化参数调优7 线性回归模型与诊断数据说...原创 2020-02-21 12:12:53 · 1616 阅读 · 5 评论 -
数据科学 案例2 统计推断基础之房价预测(代码)
数据科学 案例2 统计推断基础之房价预测(代码)第6讲 统计推断基础6.1 参数估计1、进行描述性统计分析2、置信度区间估计1、法一(直接计算)2、法二(定义函数计算)3、法三(直接调用函数)6.2 假设检验与单样本T检验6.3 两样本T检验6.4 方差分析6.5 相关分析6.6卡方检验第6讲 统计推断基础数据说明:本数据是地区房价增长率数据名称-中文含义dis_name-小区名称ra...原创 2020-02-21 12:12:18 · 1071 阅读 · 1 评论 -
数据科学 案例1 商品促销(代码)
数据科学 案例1 商品促销1. 导入数据2.通过 RFM方法 建立模型2.1 通过计算F反应客户对打折产品的偏好2.2 通过计算M反应客户的价值信息2.3 通过计算R反应客户是否为沉默客户3.构建模型,筛选目标客户供自己查阅。pandas学习参考: 十分钟搞定pandas1. 导入数据import pandas as pd#import numpy as nptrad_flow =...原创 2020-01-04 20:38:16 · 597 阅读 · 0 评论