![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Datawhale零基础入门数据挖掘
BigCabbageFy
这个作者很懒,什么都没留下…
展开
-
numpy task5排序搜索计数及集合操作
排序,搜索和计数 排序 numpy.sort(a[, axis=-1, kind=‘quicksort’, order=None]); axis:排序沿数组的轴方向; kind:排序的算法(快排,混排,堆排); order:排序的字段名 import numpy as np # np.random.seed() x= np.random.rand(5,5)*10 x = np.around(x,2) print(x) print('+++++++++++') y = np.sort(x) pri原创 2020-10-31 20:26:54 · 341 阅读 · 0 评论 -
numpy Task04数学函数和逻辑函数
数学函数 向量化和广播 向量化和广播这两个概念是 numpy 内部实现的基础。有了向量化,编写代码时无需使用显式循环。这些循环实际上不能省略,只不过是在内部实现,被代码中的其他结构代替。向量化的应用使得代码更简洁,可读性更强,也可以说使用了向量化方法的代码看上去更“Pythonic”。 广播机制描述了 numpy 如何在算术运算期间处理具有不同形状的数组,让较小的数组在较大的数组上“广播”,以便它们具有兼容的形状。并不是所有的维度都要彼此兼容才符合广播机制的要求,但它们必须满足一定的条件。 若两个数组的各维原创 2020-10-28 18:15:54 · 272 阅读 · 1 评论 -
numpy Task03
数组操作 更改形状 numpy.ndarray.shape表示数组的维度,返回一个元组,这个元组的长度就是维度的数目,即 ndim 属性(秩)。 import numpy as np x = np.array([1,2,9,4,5,6,7,8]) print(x.shape) x.shape = [2,4] print(x) (8,) [[1 2 9 4] [5 6 7 8]] numpy.ndarray.flat 将数组转换为一维的迭代器,可以用for访问数组每一个元素。 import原创 2020-10-25 21:52:26 · 153 阅读 · 1 评论 -
numpy基础 Task02
副本与视图 在 Numpy 中,尤其是在做数组运算或数组操作时,返回结果不是数组的 副本 就是 视图。 在 Numpy 中,所有赋值运算不会为数组和数组中的任何元素创建副本。 numpy.ndarray.copy() 函数创建一个副本。 对副本数据进行修改,不会影响到原始数据,它们物理内存不在同一位置。 import numpy as np x = np.array([1,2,3,4,5,6,7,8]) y = x y[0] = -1 print(x) print('+++++++++++++++原创 2020-10-23 17:47:56 · 762 阅读 · 0 评论 -
numpy基础 Task01
常量 numpy.nan 表示空值 numpy.inf 表示正无穷大 numpy.pi 表示圆周率 numpy.e 表示自然常数 时间日期和时间增量 datetime64 在 numpy 中,我们很方便的将字符串转换成时间日期类型 datetime64(datetime 已被 python 包含的日期时间库所占用)。 从字符串创建 datetime64 类型时,默认情况下,numpy 会根据字符串自动选择对应的单位。 import numpy as np a = n原创 2020-10-20 20:02:58 · 174 阅读 · 0 评论 -
金融风控 Task5 模型融合
1 内容介绍 模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。 平均: a. 简单平均法 b. 加权平均法 投票: a. 简单投票法 b. 加权投票法 综合: a. 排序融合 b. log融合 stacking: a. 构建多层模型,并利用预测结果再拟合预测。5. blending: a. 选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据原创 2020-09-27 17:58:10 · 142 阅读 · 0 评论 -
金融风控 Task-04 4 建模与调参
1 学习目标 学习在金融分控领域常用的机器学习模 学习机器学习模型的建模过程与调参流程 完成相应学习打卡任务 2 内容介绍 逻辑回归模型: a. 理解逻辑回归模型; b. 逻辑回归模型的应用; c. 逻辑回归的优缺点; 树模型: a. 理解树模型; b. 树模型的应用; c. 树模型的优缺点; 集成模型 a. 基于bagging思想的集成模型随机森林模型 b. 基于boosting思想的集成模XGBoost模型LightGBM模型CatBoost模型 模型对比与性能评估: a. 回归模型/树模原创 2020-09-24 21:12:34 · 173 阅读 · 1 评论 -
金融风控 Task3-特征工程
学习目标 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法 学习特征交互、编码、选择的相应方法 内容介绍 数据预处理: 缺失值的填充 时间格式处理 对象类型特征转换到数值 异常值处理: 基于3segama原则 基于箱型图 数据分箱: 固定宽度分箱 分位数分箱 离散数值型数据分箱 连续数值型数据分箱 卡方分箱 特征交互: 特征和特征之间组合 特征和特征之间衍生 其他特征衍生的尝试 特征编码: one-hot编码 label-encode编原创 2020-09-21 21:43:52 · 225 阅读 · 0 评论 -
金融风控 Task2-数据探索性分析
1 数据总体了解: #导包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime import warnings warnings.filterwarnings('ignore') 1.1 读取数据集并了解数据集大小,原始特征维度 train = pd.read_csv('./data/train.csv') testA = pd.read_c原创 2020-09-18 20:03:59 · 319 阅读 · 0 评论 -
金融风控 Task1-赛题分析
1.1 学习目标 理解赛题数据和目标,清楚评分体系。 1.2 了解赛题 赛题概况 数据概况 预测指标 分析赛题 1.2.1 赛题概况 赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 1.2.2 数据概况原创 2020-09-15 21:40:19 · 241 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task5 模型融合
5.1 内容介绍 简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 stacking/blending: 构建多层模型,并利用预测结果再拟合预测。 boosting/bagging(在xgboost,Ada...原创 2020-04-04 19:28:20 · 249 阅读 · 0 评论 -
Datawhale零基础入门数据挖掘-Task4建模调参
4.1 学习目标 了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程 完成相应学习打卡任务 4.2 内容介绍 1. 线性回归模型: 线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型; 2. 模型性能验证: 评价函数与目标函数; 交叉验证方法; 留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线; 3. 嵌入式特征选择: Lasso回归; Ridge回归; 决...原创 2020-04-01 17:57:44 · 225 阅读 · 0 评论 -
Datawhale零基础入门数据挖掘-Task3特征工程
Datawhale零基础入门数据挖掘-Task3特征工程 标签 :特征工程 3.1 特征工程目标 对于特征进行进一步分析,并对于数据进行处理 完成对于特征工程的分析,并对于数据进行一些图表或文字总结 3.2 内容介绍 常见的特征工程包括: 1、异常处理: 通过箱线图分析删除异常值; BOX-COX转换(处理有偏分布); 长尾截断; 2、特征归一化/标准化: 标准化; 归一化;...原创 2020-03-28 18:40:16 · 295 阅读 · 0 评论 -
Datawhale零基础入门数据挖掘-数据探索性分析1
Datawhale零基础入门分词-数据分析 标签: 数据分析 二手车交易预测 注:本博文是在一群大神编写的教程基础上加入了一些自己的想法和注释,对很多关键性名字做出了注解。一来帮助自己加深学习,另一方面可以帮助新人降低门槛。 数据探索性分析 1. 目标 熟悉字段含义,了解数据集 利用可视化查看变量与预测值之间存在的关系 进行数据处理和特征工程 2. 内容 2.1 python库 数据科...原创 2020-03-24 20:25:45 · 730 阅读 · 0 评论