变量相关性热力图

我们在建模的时候为了避免多重共线性一般都会分析变量之间的相关性。衡量变量相关性我们一般都是计算变量两两之间的皮尔逊相关系数( Pearson correlation coefficient)。为了能够更好的展现变量之间的相关性,下面为大家介绍如何利用热力图来表示变量之间的相关性。 def co...

2019-04-13 10:41:36

阅读数 68

评论数 0

利用Shap Value挑选变量

#Shap Value clf = lgb.LGBMClassifier(objective='binary',random_state=1024).fit(X_train,y_train) explainer = shap.TreeExplainer(clf) shap_values = ex...

2019-03-19 09:07:51

阅读数 236

评论数 2

利用PermutationImportance挑选变量

我们在构建树类模型(XGBoost、LightGBM等)时,如果想要知道哪些变量比较重要的话。可以通过模型的feature_importances_方法来获取特征重要性。例如LightGBM的feature_importances_可以通过特征的分裂次数或利用该特征分裂后的增益来衡量。一般情况下,...

2019-03-19 08:57:39

阅读数 337

评论数 0

CNN卷积池化后维度的变化

CNN的卷积操作后维度变化: 输入维度:,分别代表输入样本的长宽高 卷积操作的超参数 卷积核个数: 卷积核大小: 滑动步长(Stride): 填充(Padding): 则输出的维度为,其中 由于CNN的参数共享机制,每个卷积核的参数个数为,共有个权重和...

2019-02-23 10:22:24

阅读数 585

评论数 0

RNN系数矩阵维度之间的关系

我们知道RNN有三个系数矩阵需要训练,经常会被这些矩阵的维度搞晕。下面举一个简单的例子让大家记住各个矩阵维度之间的关系。  输入: 输出: 隐层(记忆): 其中,,    ...

2019-02-20 23:47:10

阅读数 233

评论数 0

Mysql的字符串转日期

  我们在对mysql的数据进行分析时,经常会遇到将业务意义为时间类型的变量定义为字符串的情况。如果我们需要按照时间维度进行分析的话,首先先要将字符串转换为时间类型。这里就需要使用Mysql的函数: STR_TO_DATE(str,format),其中,str为需要转换的字符串;format为...

2019-01-22 14:12:16

阅读数 792

评论数 0

python 循环创建变量

数据分析时,我们经常会有这样的需求:将数据集按某一个维度拆分成若干数据子集、创建多个变量。如果手动去实现,工作量较大。我们可以通过locals()配合循环语句来实现这一需求。我们以鸢尾花数据集为例,我们按照花的种类将数据集拆分成数据子集,分别放到不同的变量中去。实现代码如下: from skl...

2019-01-02 21:54:45

阅读数 653

评论数 0

Sql中的DDL和DML

对于数据分析人员,我们对数据库的操作无非就是建表、修改表结构、修改表内容(增删改)、查询表内容这些操作。下面总结了这些操作的区别 DDL 数据定义语言(Data Definition Language) 不需要commit 对表格的定义进行修改 create table 创建表 ...

2019-01-02 15:58:49

阅读数 245

评论数 0

python的axis判断

axis = 0,对横轴(第0维)进行操作,运算的方向为纵向运算。即求列和、最大、最小等 axis = 1,对纵轴(第1维)进程操作,运算的方向为横向运算。即求行和、最大、最小等 import numpy as np import numpy as np data = np.array([...

2018-12-26 22:28:26

阅读数 245

评论数 0

树类模型特征重要性计算方法

我们在使用GBDT、RF、Xgboost等树类模型建模时,都会有一个feature_importance的方法来返回特征重要性。下面总结了不同树类模型计算特征重要性的原理: Random Foreast 袋外数据错误率 基尼指数 GBDT 基尼指数 Xgboost gain...

2018-12-18 23:39:36

阅读数 699

评论数 0

Tensorboard可视化

Tensorboard可以将我们搭建的神经网络可视化,下面为大家介绍如何利用tensorboard可视化我们所搭建的模型。 测试代码: import tensorflow as tf with tf.name_scope('graph') as scope: matrix1 = ...

2018-12-11 20:51:00

阅读数 394

评论数 0

一分钟理解softmax函数(超简单)

做过多分类任务的同学一定都知道softmax函数。softmax函数,又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。下图展示了softmax的计算方法: 下面为大家解释一下为什么softmax是这种形式。我们知道指数函数的值域取值...

2018-11-28 16:39:09

阅读数 2263

评论数 0

读书笔记-《机器学习》第十三章:半监督学习

目的:利用未标记样本所包含的信息,提高模型泛化能力 主动学习:与外界进行有效次的交互,降低标记成本。使用尽量少的“查询”来获的尽量好的性能 半监督学习:学习器不依赖外界交互、自动地利用未标记样本来提升学习性能 纯半监督学习 直推学习 基本假设:相似的样本拥有相似的输出 聚类假设...

2018-11-21 16:56:59

阅读数 542

评论数 0

机器学习笔记-朴素贝叶斯

  朴素:假设所有特征独立;贝叶斯:贝叶斯定理 朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(y),并为每个属性估计条件概率P(x(i)|y) 实例被划分到后验概率最大的类中,后验分布 = 先验分布 + 数据(似然) 贝叶斯估计:避免要估计的概率值为0的情况 拉普拉斯...

2018-11-20 16:42:06

阅读数 437

评论数 0

传统机器学习算法解决NLP问题

       如今解决nlp问题,一般都是使用深度学习相关算法。在深度学习算法没有发展到如今水平之前,都是通过传统机器学习算法来解决nlp问题。下面为大家总结了解决nlp相关问题的传统机器学习算法。 分类模型:文本分类、意图识别、情感分类 Logistics Regression Baye...

2018-11-08 15:54:46

阅读数 675

评论数 0

Python的if...elif语句

      我们在编写程序的时候,经常会进行多条件判断。Python的if...elif可以进行多条件判断。在使用if...elif需注意:if判断会返回第一个满足条件的结果。如果需要返回所有满足条件的结果,这种方法是不可行的。下面为大家举一个例子: a = 5 if a &l...

2018-11-06 17:41:00

阅读数 410

评论数 0

SQL左连接数据变少

        前一段时间,同学写sql碰到一个问题:两段sql连接看似一样,但是条数却不一样。原因是在左连接之后的where条件对数据进行了筛选,使得数据变少了。两段sql如下: select count(1) from (select * from KXAPP.I...

2018-10-24 22:36:11

阅读数 697

评论数 0

机器学习笔记-K近邻

k近邻法不具有显示的学习过程,是一种懒惰学习 即可分类,又可回归 模型由三个基本要素——距离度量、k值的选择、分类决策规则决定 kd树是二叉树,表示对k维空间的一个划分。是一种便于对k维空间中的数据进行快速检索的数据结构 构造kd树 搜索kd树 http://blog.csdn.n...

2018-09-26 23:22:50

阅读数 420

评论数 0

机器学习笔记-感知机

感知机的解不唯一,与初始值和选取的误分类点有关 感知机学习算法包括原始形式和对偶形式 对偶形式是对算法执行速度的优化,引入了Gram矩阵,达到一次计算,多次使用的效果 损失函数为误分类点到超平面距离之和(凸函数) 参数通过随机梯度下降法来确定(每次使用一个误分类点) 对线性可分数据集,感知...

2018-09-14 15:52:35

阅读数 394

评论数 0

Oracle计算分组分位数

  我们在进行分析过程中,经常会有计算某个特征的分位数这个需求。下面为大家介绍如何在oracle计算某一列数据的分位数。 需要求分位数的表结构如下: select * from test_lizhen;   我们发现该表有两列,一列是代表不同产品,一列是代表每个用户的属性。我们可以...

2018-09-11 09:54:26

阅读数 1760

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭