数据科学
文章平均质量分 61
秀球Gang
北京交通大学软件学院本科生
展开
-
深度学习小白如何看懂神经网络模型/图?
深度学习小白如何看懂神经网络模型/图?神经网络的图还是比较容易看懂的,比电路图什么的要好懂多了。只是刚开始接触有些不习惯罢了,多看一些就好了。下面举几张神经网络图作为例子(由简单到复杂)。简单的3层网络下图是一个非常简单的3层网络。首先,我们注意到有一些圆形,它们表示神经元。然后,竖着看,这些神经元组成的“列”称为网络层。灰色的神经元构成输入层和输出层,中间黑色的神经元构成隐藏层。然后,神经元之间有一些线互相连接,这些线称为连接。在上图中,每层中的每个神经元都和下一层中的每个神经元连接,这称为转载 2021-04-20 14:23:00 · 6323 阅读 · 1 评论 -
「数据科学」天池金融风控-贷款违约预测模型融合
天池金融风控-贷款违约预测模型融合1. 学习目标2. stacking / blending详解3. 代码示例3.1 平均3.2 投票3.3 Stacking:3.4 blending4. 经验总结1. 学习目标上四篇文章介绍了天池“金融风控-贷款违约预测”的赛题分析、数据分析、特征工程和建模调参。「机器学习」天池金融风控-贷款违约预测赛题分析「数据科学」天池金融风控-贷款违约预测数据分析「数据科学」天池金融风控-贷款违约预测特征工程「数据科学」天池金融风控-贷款违约预测建模调参该篇文章为第五原创 2020-09-28 01:06:21 · 1237 阅读 · 1 评论 -
「数据科学」天池金融风控-贷款违约预测建模调参
天池金融风控-贷款违约预测建模调参1. 学习目标2. 模型相关原理介绍2.1 逻辑回归模型2.2 决策树模型2.3 GBDT模型2.4 XGBoost模型2.5 LightGBM模型2.6 Catboost模型2.7 时间序列模型2.8 推荐教材3. 模型对比与性能评估3.1 逻辑回归3.2 决策树模型3.3 集成模型集成方法 (ensemble method)3.4 模型评估方法3.5 模型评价标准4. 代码示例4.1 导入相关设置4.2 读取数据4.3 简单建模4.4 模型调参5. 经验总结1. 学习原创 2020-09-24 23:32:49 · 689 阅读 · 0 评论 -
「数据科学」数据科学研究|竞赛的基本步骤
数据科学研究|竞赛的基本步骤0. 基本步骤1. 问题建模1.1 问题/赛题理解1.1.1 业务理解1.1.2 数据理解1.1.3 评价指标1.2 线下验证1.2.1 时序验证1.2.2 K折交叉验证2. 数据分析2.1 了解数据2.2 数据探索性分析(EDA)3. 特征工程3.1 数据预处理3.2 特征提取3.3 特征选择4. 必备模型5. 模型融合6. 模型优化0. 基本步骤1. 问题建模1.1 问题/赛题理解1.1.1 业务理解1.1.2 数据理解每种数据集之间的关系数据中缺失值情况原创 2020-09-22 17:40:09 · 250 阅读 · 0 评论 -
「数据科学」天池金融风控-贷款违约预测特征工程
天池金融风控-贷款违约预测特征工程1. 学习目标2. 代码示例2.1 导入包并读取数据2.2 特征预处理2.2.2 缺失值填充2.2.3 时间格式处理2.2.4 对象类型特征转换到数值2.2.5 类别特征处理2.3 异常值处理2.3.1 检测异常的方法一:均方差2.3.2检测异常的方法二:箱型图2.4 数据分桶2.5 特征交互2.6 特征编码2.6.1 labelEncode 直接放入树模型中2.6.2 逻辑回归等模型要单独增加的特征工程2.7 特征选择2.7.1 Filter2.7.2 Wrapper原创 2020-09-21 21:55:42 · 737 阅读 · 0 评论 -
「数据科学」使用 seaborn 进行数据可视化
使用 seaborn 进行数据可视化seaborn 简介布局风格 import seaborn as sns样式控制:axes_style() and set_style()边框控制:despine()绘图元素:plotting_context() 和 set_context()绘图可视化统计关系 relplot散点图线图可视化数据集的分布 distplot直方图可视化分类数据 catplot分类散点图分类分布图分类估计图一些参数seaborn 简介上一篇文章介绍了使用 matplotlib 进行数据可原创 2020-09-18 14:06:14 · 624 阅读 · 0 评论 -
「数据科学」天池金融风控-贷款违约预测数据分析
天池金融风控-贷款违约预测数据分析1. 学习目的2. 了解数据2.1 导入第三方库2.2 读取文件2.2.1 拓展知识2.3 总体了解2.3.1 样本个数和特征维度3. 数据分析与可视化3.1 缺失值与唯一值3.2 数值类型与对象类型3.2.1 数值类型变量分析3.2.2 对象类型变量分析3.3 变量分布可视化3.3.1 单一变量分布可视化3.3.2 根绝y值不同可视化x某个特征的分布3.4 时间数据处理与可视化3.5 透视图3.6 生成数据报告4. 总结1. 学习目的上一篇文章介绍了天池“金融风控-贷原创 2020-09-17 18:42:09 · 3384 阅读 · 0 评论 -
「数据科学」使用 matplotlib 进行数据可视化
使用 matplotlib 进行数据可视化matplotlib 简介figure 画布subplot 分割画布subplots 分割画布绘制图形scatter 散点图bar 柱形图barh 水平柱形图pie 饼状图颜色、标记、线型颜色标记线型示例刻度、标签、图例刻度标签图例示例matplotlib 简介matplotlib 是 Python 最著名的绘图库,它提供了一整套和 matlab 相似的命令 API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入 GUI 应用程序中。seab原创 2020-09-17 14:20:33 · 578 阅读 · 0 评论