![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据挖掘
irober
这个作者很懒,什么都没留下…
展开
-
机器学习:特征选择(feature selection)2020
特征选择常见方法Filter1、去掉取值变化小的特征(Removing features with low variance)2、单变量特征选择 (Univariate feature selection)Wrapper3、递归特征消除 (Recursive Feature Elimination)Embedding4、使用SelectFromModel选择特征 (Feature selection using SelectFromModel)5、将特征选择过程融入pipeli转载 2020-09-30 14:49:08 · 1588 阅读 · 0 评论 -
数据科学 15 推荐算法(概念)
数据科学 15 推荐算法(概念)15.1 智能推荐15.2 购物篮分析与运用15.2.1 关联规则1、评判规则的标准2、Apriori算法3、序贯模型4、相关性在推荐中的运用7.2 XXX7.2.1 XX1、图片2、规则3、 LaTeX公式主要内容:智能推荐购物篮分析与运用相关性在推荐中的运用15.1 智能推荐15.2 购物篮分析与运用15.2.1 关联规则1、评判规则的标准...原创 2020-03-16 10:57:50 · 709 阅读 · 0 评论 -
数据科学 14 银行客户渠道使用偏好洞察案例(概念)
数据科学 14 银行客户渠道使用偏好洞察案例(概念)13.1 客户画像与标签体系13.1.1 概念13.2.2 客户细分1、 简单方案2、 建模标准流程(适用于工业场景)13.2 分类变量的压缩13.2.1 水平变量编码转换1、分类变量重编码(概化)2、 基于目标变量的转换-WOE(基于证据的权重调整)13.3 连续变量的压缩13.3.1 主成分分析的思路13.3.2 变量聚类思路13.1 客户...原创 2020-03-13 09:54:28 · 1402 阅读 · 0 评论 -
数据科学 13 精准营销的两阶段预测模型(概念)
数据科学 13 精准营销的两阶段预测模型(概念)13.1 总体思路13.1.1 数据准备步骤1、 发现数据问题类型2、 不要将变量筛选全放到建模的时候13.2.2 解决方案1、 简单方案2、 建模标准流程(适用于工业场景)13.2 分类变量的压缩13.2.1 水平变量编码转换1、分类变量重编码(概化)2、 基于目标变量的转换-WOE(基于证据的权重调整)13.3 连续变量的压缩13.3.1 主成分...原创 2020-03-08 13:52:36 · 1126 阅读 · 0 评论 -
数据科学 12 连续变量关系探索与变量压缩(概念)
数据科学 12 连续变量关系探索与变量压缩(概念)12.1 多元统计基础与变量约减的思路7.1.1 XX1、图片2、x7.2 XXX7.2.1 XX1、图片2、规则3、 LaTeX公式主要内容:多元统计基础与变量约减的思路主成分分析因子分析稀疏主成分分析变量聚类12.1 多元统计基础与变量约减的思路7.1.1 XX1、图片a2、x7.2 XXX7.2.1 X...原创 2020-03-04 12:06:01 · 1431 阅读 · 0 评论 -
数据科学 11 不平衡数据问题处理及组合模型
数据科学 11 不平衡数据问题处理及组合模型11.1 不平衡数据问题11.1.1 背景11.1.2 处理方法11.1.3 数据处理全流程11.1.4 处理方法详解1、随机过抽样与欠抽样2、欠采样: Tomek Link方法3、过采样: SMOTE方法的实现4、综合采样11.2 组合模型11.2.1 集成学习概述1、装袋(Bagging)2、提升(boosting)算法11.2.2 随机森林1、概述...原创 2020-02-27 10:41:03 · 1150 阅读 · 0 评论 -
数据科学 10 神经网络(概念)
CSDN章节模板10.1 神经网络基本概念10.1.1 人工神经元输入输出关系1、常见的激发函数10.2 感知器与BP网络10.2.1 感知机1、基本结构2、原理3、 多层感知机10.2.2 BP神经网络1、原理3、 学习算法(概述)主要内容:a10.1 神经网络基本概念10.1.1 人工神经元输入输出关系Ii=∑j=1nwjixj−θiI_i=\sum\limits_{j=...原创 2020-02-24 18:52:54 · 823 阅读 · 0 评论 -
数据科学 9 决策树(概念)
数据科学 9 决策树9.1 决策树算法核心9.1.1 拆分规则3、缺点9.2.2 C4.5 决策树1、原理2、单个分类或等级变量3、比较多各变量的优先级9.2.3 R中的C5.0 算法(Python目前没有实现)9.2.4 CART决策树1、CART决策树原理2、基尼系数的计算9.2.5 决策树方法总结9.2.5 模型修剪——以CART为例1、预修剪2、后剪枝3、CART的决策树修剪方法—总结主...原创 2020-02-25 18:53:05 · 687 阅读 · 0 评论 -
数据科学 8 (补充)参数估计与凸优化
CSDN章节模板7.1 XXX7.1.1 XX1、图片2、x7.2 XXX7.2.1 XX1、图片2、规则3、 LaTeX公式主要内容:a7.1 XXX7.1.1 XX1、图片a2、x7.2 XXX7.2.1 XX目标:xxxxx1、图片xxxxxxx:• xxx:• xxx:• xxx:2、规则1)、x2)、x3)、x4)、x5)、x...原创 2020-02-21 12:13:47 · 727 阅读 · 0 评论 -
数据科学 8 逻辑回归(概念)
数据科学 8 逻辑回归8.1 逻辑回归基础8.1.1 分类变量之间的相关性检验1、分类变量间的相关性2、相关性检验3、卡方检验4、优势比(Odds Ratios)8.1.2 一元连续变量逻辑回归1、逻辑回归的类型2、逻辑回归模型与Logit 转换8.1.3 模型表现优劣的评估1、模型评估——ROC曲线2、混淆矩阵8.1.4 包含分类预测变量的逻辑回归1、伯努利分布2、正则化的逻辑回归主要内容:...原创 2020-02-21 12:13:22 · 705 阅读 · 0 评论 -
数据科学 7线性回归(概念)
数据科学 6 参数估计与统计推断6.1 参数估计6.1.1 概念1、总体与样本2、分层抽样3、系统抽样主要内容:假设检验与单样本T检验两样本T检验方差分析(分类变量和连续变量关系检验)相关分析(两连续变量关系检验)卡方检验(两分类变量关系检验)6.1 参数估计6.1.1 概念1、总体与样本总体 – 研究所感兴趣的所有个体组成总体样本 – 从总体抽取的部分个体组成样本,样...原创 2020-02-21 12:11:40 · 1327 阅读 · 0 评论 -
数据科学 6 参数估计与统计推断(概念)
数据科学 6 参数估计与统计推断6.1 参数估计6.1.1 概念1、总体与样本2、分层抽样3、系统抽样主要内容:假设检验与单样本T检验两样本T检验方差分析(分类变量和连续变量关系检验)相关分析(两连续变量关系检验)卡方检验(两分类变量关系检验)6.1 参数估计6.1.1 概念1、总体与样本总体 – 研究所感兴趣的所有个体组成总体样本 – 从总体抽取的部分个体组成样本,样...原创 2020-02-21 12:10:45 · 1337 阅读 · 0 评论 -
数据科学 5.5 数据抽样(代码)
数据科学 5.5 数据抽样5.5 数据抽样5.5.1 采样函数5.5.2 采样方案1、简单随机抽样2、分层抽样3、系统抽样5.5 数据抽样5.5.1 采样函数def get_sample(df, sampling="simple_random", k=1, stratified_col=None): """ 对输入的 dataframe 进行抽样的函数 参数: ...原创 2020-01-05 18:32:27 · 999 阅读 · 0 评论 -
数据科学 5.3 数据整合 代码sql
数据科学 5.3 数据整合 代码sql5.1 SQL语句介绍5.1.1 SQL数据库连接5.1.2 选择表中所有列5.1.3 删除重复的行5.1.4 选择满足条件的行5.1.5 对行进行排序5.2纵向连接表5.2.1 union 和 union all5.2.2 EXCEPT 和 INTERSECT5.3 练习: 多表纵向连接5.3.1DataFrame操作5.3.2 横向连接表1、读取数据2、笛...原创 2020-01-04 21:31:12 · 171 阅读 · 0 评论 -
数据科学 5.4 数据清洗(代码)
数据科学 5.4 数据清洗(代码)5.4 数据清洗5.4.1、脏数据或数据不正确5.4.2、数据不一致1、数据重复2、缺失值处理5.4.3、噪声值处理1、盖帽法2、分箱法5.4 数据清洗import pandas as pdimport os import numpy as np# os.chdir(r"D:\Python_Training\script_Python\5Preproce...原创 2020-01-04 21:16:15 · 621 阅读 · 0 评论 -
数据科学 5.2 数据整合 pandas程序
数据科学5 数据整合和数据清洗 pandas程序第5章 数据整合和数据清洗(代码pandas)5.1 数据整合5.1.1 行列操作1. 单列2. 选择多行和多列3. 创建、删除列、行5.1.2 条件查询1. 单条件2. 多条件3. 使用query4. 其他5.1.3 横向连接1. 内连接2. 外连接3. 行索引连接5.1.4 纵向合并5.1.5 排序1. 排序5.1.6 分组汇总5.1.7 拆分、...原创 2020-01-02 20:55:25 · 252 阅读 · 0 评论 -
数据科学 5.1 数据处理(概念)
文章目录一、数据库基础1、基本概念二、数据整合与数据清洗1、数据整合1.1SQL语句介绍1.2数据纵向合并1.3数据横向合并1.4SQL进行汇总2、数据清洗1.1错误值处理1.2缺失值处理1.3噪声值处理三、数据整理一、数据库基础1、基本概念关系型数据库:将世界抽象为实体和关系,实体包括物和事件。(一张二维表中存放着实体的集合,“行”为一个实体,“列”为属性和特征。表与表之间通过逻辑关系相...原创 2020-01-02 08:26:25 · 1102 阅读 · 0 评论 -
数据科学 4、描述性统计与探索型数据分析(代码)
数据科学 4、描述性统计与探索型数据分析--代码数据预处理1、根据单价和面积计算房屋价格(价格=单价×面积)2、dist变量重新编码为中文,比如chaoyang改为朝阳区3、单因子频数:描述名义变量的分布3.1统计名义变量的频数3.2地区分布条形图与饼状图4、单变量描述:描述连续变量的分布4.1 平均值、中位数、标准差、倾斜4.2 聚合函数:agg同时统计多个统计量:平均值、中位数、标准差、倾斜4...原创 2019-12-29 20:05:08 · 897 阅读 · 0 评论 -
数据科学 3、描述性统计分析基础(概念)
数据科学 3、描述性统计分析基础一、基本概念1、变量的度量类型2、众数、中位数、平均数的关系3、常见连续分布4、描述统计方法4.1分类变量4.1.1单因子频数4.1.2 两分类变量4.2连续变量4.2.1 单连续变量4.2.2 一分类变量 + 一连续变量4.2.3两分类变量 + 一连续变量4.2.3 两连续变量4.2.4 时间与两个连续变量4.3关联性不同的图表内容来自天善智能 Python数据...原创 2019-12-29 19:24:20 · 869 阅读 · 0 评论 -
数据科学 1、数理统计技术概述(概念)
数理统计技术一、Statement-统计分析二、机器学习三、分类算法的模型评估一、Statement-统计分析对于输入、输出为为离散、连续、单变量、多变量等情况时的检验方式。二、机器学习三、分类算法的模型评估评估指标汇总决策类模型评估排序类模型的评估指标...原创 2019-12-29 13:54:17 · 326 阅读 · 0 评论 -
数据科学 2、分类盒须图、堆叠柱形图、stack2dim函数(代码)
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlibimport seaborn as snsimport os画两个维度标准化的堆积柱状图函数使用效果如下stack2dim(auto,'Owner','loss_flag')stack2dim(auto,'...原创 2019-12-27 11:13:07 · 2390 阅读 · 0 评论 -
python数据可视化(matplotlib条形图、饼图、箱状图、直方图、折线图)(代码)
python数据可视化(matplotlib条形图、饼图、箱状图、直方图、折线图)matplotlib(条形图)一.简单条形图1、简单垂直条形图2、简单水平条形图二、水平交错条形图三、垂直堆叠条形图matplotlib(饼图)matplotlib(箱线图)matplotlib(直方图)一、一元直方图二、二元直方图matplotlib(折线图)一、一元折线图的绘制二、多元折线图本程序来自于网络,自...原创 2019-12-27 10:10:05 · 8501 阅读 · 0 评论 -
数据科学 案例14 推荐算法Apriori案例
数据科学 案例14 推荐算法Apriori案例16 推荐算法案例16.1 Apriori包编写1、Sort Phase2、Litemset Phase3、Transformation Phase4、Sequence Phase5、Maximal Phase6、aprioriAll16.1 调用现成Apriori包16 推荐算法案例16.1 Apriori包编写seq1 = [ ...原创 2020-03-16 11:12:15 · 516 阅读 · 0 评论 -
数据科学 案例12 变量压缩与聚类之精准营销完整流程(代码)
数据科学 案例12 变量压缩与聚类之精准营销完整流程(代码)14 变量压缩与聚类之精准营销一、 数据获取与导入的S(抽样)阶段。1、规整数据集2、筛选预测能力强的变量3、根据IV值筛选变量 - 分类变量4、根据IV值筛选变量-连续变量三、针对每个变量的E(探索)阶段1、对连续变量的统计探索2、对分类变量的统计探索四、针对有问题的变量进行修改的M(修改)阶段1、将连续变量的错误值改为缺失值2、将连续...原创 2020-03-12 11:56:10 · 766 阅读 · 4 评论 -
数据科学 案例11 变量压缩(代码)
数据科学 案例11 变量压缩13 变量压缩13.1 贷款应用一、主成分分析1、数据导入2、查看相关系数矩阵,判定做变量降维的必要性(非必须)3、做主成分之前,进行中心标准化4、使用sklearn的主成分分析,用于判断保留主成分的数量13.2 经济发展一、主成分分析1、数据导入2、查看相关系数矩阵,判定做变量降维的必要性(非必须)3、做主成分之前,进行中心标准化4、使用sklearn的主成分分析,用...原创 2020-03-06 16:00:36 · 775 阅读 · 0 评论 -
数据科学 案例10 组合模型之宽带营销(代码)
数据科学 案例10 组合模型之宽带营销(代码)组合模型1、导入数据2、决策树算法2.1 构建模型2.2 打印结果3、随机森林3.1 构建模型3.2 打印结果3.3 打印最优参数4、Adaboost算法4.1 构建模型4.2 打印结果4.3 打印最优参数5、GBDT5.1 构建模型5.2 打印结果4.3 打印最优参数组合模型from sklearn.model_selection import ...原创 2020-03-03 11:27:11 · 382 阅读 · 0 评论 -
数据科学 案例9 不平衡数据问题及处理(代码)
数据科学 案例9 不平衡数据问题及处理(代码)11 不平衡数据问题及处理1、导入数据2、查看样本分布3、样本不均衡问题处理3.1 采用抽样方法3.2 改变样本权重11 不平衡数据问题及处理import osimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt1、导入数据train = pd.read...原创 2020-03-03 11:21:21 · 978 阅读 · 1 评论 -
数据科学 案例7 决策树之电脑购买(代码)
数据科学 案例7 决策树之电脑购买(代码)9 决策树1、导入数据2、CART算法(分类树)2.1 建立CART模型2.2 可视化9 决策树import osimport pandas as pd1、导入数据data = pd.read_csv(r'./data/AllElectronics.csv',encoding='gbk', skipinitialspace=True) #, s...原创 2020-02-26 10:15:39 · 3336 阅读 · 0 评论 -
数据科学 案例5 Logistic回归之构建初始信用评级和分类模型检验(代码)
数据科学 案例5 Logistic回归之构建初始信用评级和分类模型检验(代码)8 逻辑回归1、导入数据和数据清洗2、衍生变量:3、分类变量的相关关系3.1 交叉表3.2 列联表4、线性回归4.1 数据预处理(字符型转化为数值型,查看变量间的关系)4.2 随机抽样,建立训练集与测试集4.3 线性回归4.4 预测4.5 模型评估1、设定阈值2、混淆矩阵3、计算准确率4、绘制ROC曲线5、逻辑回归5.1...原创 2020-02-26 09:57:27 · 1774 阅读 · 0 评论 -
数据科学 案例8 神经网络之电信客户流失(代码)
数据科学 案例5 神经网络之电信客户流失1、导入数据和数据清洗2、神经网络2.1 划分训练集和测试集2.2 极差标准化(神经网络一定要做)2.3 调用神经网络包3、预测3.1 预测分类标签3.1 预测概率4、验证4.1 平均精度4.2 ROC曲线4.3 模型优化本案例采用BP神经网络模型。import osimport numpy as npimport pandas as pdimpo...原创 2020-02-26 09:33:23 · 1379 阅读 · 1 评论 -
数据科学 案例4 线性回归之房价预测(代码)
数据科学 案例4 房价预测(代码)Step1:描述性统计1、简单预处理2、因变量(price)1)因变量直方图2)查看因变量的均值、中位数和标准差等更多信息3)查看因变量最高和最低的两条观测2、自变量1)整体来看(连续变量与分类变量分开)2) 变量dist3) roomnum4) halls5) floor6) subway+school (stack2dim函数)7) AREASteo2:建模1...原创 2020-02-21 12:15:00 · 1756 阅读 · 4 评论 -
数据科学 案例3 线性回归之汽车贷款(代码)
数据科学 案例3 线性回归之汽车贷款(代码)7 线性回归模型与诊断Step1、导入数据和数据清洗Step2、相关性分析Step3、线性回归算法1、简单线性回归3、多元线性回归3.1 多元线性回归的变量筛选Step4、残差分析Step5、强影响点分析Step6、多重共线性分析(vif函数)Step7、正则算法1、岭回归2、使用scikit-learn进行正则化参数调优7 线性回归模型与诊断数据说...原创 2020-02-21 12:12:53 · 1616 阅读 · 5 评论 -
数据科学 案例2 统计推断基础之房价预测(代码)
数据科学 案例2 统计推断基础之房价预测(代码)第6讲 统计推断基础6.1 参数估计1、进行描述性统计分析2、置信度区间估计1、法一(直接计算)2、法二(定义函数计算)3、法三(直接调用函数)6.2 假设检验与单样本T检验6.3 两样本T检验6.4 方差分析6.5 相关分析6.6卡方检验第6讲 统计推断基础数据说明:本数据是地区房价增长率数据名称-中文含义dis_name-小区名称ra...原创 2020-02-21 12:12:18 · 1071 阅读 · 1 评论 -
数据科学 案例1 商品促销(代码)
数据科学 案例1 商品促销1. 导入数据2.通过 RFM方法 建立模型2.1 通过计算F反应客户对打折产品的偏好2.2 通过计算M反应客户的价值信息2.3 通过计算R反应客户是否为沉默客户3.构建模型,筛选目标客户供自己查阅。pandas学习参考: 十分钟搞定pandas1. 导入数据import pandas as pd#import numpy as nptrad_flow =...原创 2020-01-04 20:38:16 · 597 阅读 · 0 评论