seaborn heatmap 热力图 fig, axes =plt.subplots(1,2)# print(train_df.corr())sns.heatmap(train_df.corr(), square=True, annot=True,ax=axes[0])sns.heatmap(train_df.corr(), annot=True,ax=axes[1])plt.show()可以看到各个特征变量之间的相关性都比较小(一般相关系数大于0.6可以进行变量剔除)。...
seaborn violinplot小提琴图 小提琴图是用来展示多组数据的分布状态以及概率密度。跟箱线图类似,但是可以密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。小提琴图如下:小提琴图各位置对应参数,中间一条就是箱线图数据,25%,50%,75%位置,细线区间为95%置信区间。import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('d..
seaborn boxplot 箱线图 # coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.
Seaborn distplot 核密度估计和直方图估计混合 # coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.
seaborn kdeplot 核密度估计 # coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.
seaborn countplot 统计 value counts for a single and tow categorical variable # coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt....
分类模型指标ks的含义 如果理解ROC曲线的话,就很容易理解KS了。roc横纵坐标分别为FPR、TPR。KS横轴为阈值,纵轴为不同阈值下的TPR,FPR,KS值是MAX(TPR - FPR),即两曲线相距最远的距离ks值 含义 > 0.3 模型预测性较好 0,2~0.3 模型可用 0~0.2 模型预测能力较差 < 0 模型错误 征信模型中,最期望得到的信用分数分布是正态分布,对于正负样本分别而言,也都是期望呈正态分布的样子。如果KS值过大,一般...
mysql 获取指定index的列,查询第几列的数据 有同事面试问道这个题目,无聊之下实现了一下。SET @table_name="dim_app_id_source";#表名SET @position_index=3;#第几列SET @limit_num=20;#取多少条数据SET @col_name = (SELECT COLUMN_NAME FROM information_schema.COLUMNS WHERE table_na...
机器学习--Logistic回归计算过程的推导 Logistic回归总结作者:洞庭之子微博:洞庭之子-Bing(2013年11月)PDF下载地址:http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticR...
Python 确定多项式拟合/回归的阶数 通过 1至10 阶来拟合对比 均方误差及R评分,可以确定最优的“最大阶数”。import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegression,Perce...
协方差矩阵的向量表示推导 多维随机变量的协方差矩阵对多维随机变量X=[X1,X2,…,Xn]TX=[X1,X2,…,Xn]T,我们往往需要计算各维度之间的协方差,这样协方差就组成了一个n×nn×n的矩阵,称为协方差矩阵。协方差矩阵是一个对角矩阵,对角线上的元素是各维度上随机变量的方差。 我们定义协方差为ΣΣ, 矩相关性,而不是对象之间的,所以协方差矩阵的大小与维度相同。cici表示第i维的随机变量。这里分母为m...
牛顿法 牛顿法用于最优化在最优化的问题中,线性最优化至少可以使用单纯行法求解,但对于非线性优化问题,牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f'=0的问题,这样求可以把优化问题看成方程求解问题(f'=0)。剩下的问题就和第一部分提到的牛顿法求解很相似了。这次为了求解f'=0的根,把f(x)的泰勒展开,展开到2阶形式:上面的表...
python利用eval方法提升dataframe运算性能 eval方法可以直接利用c语言的速度,而不用分配中间数组,不需要中间内存的占用.如果包含多个步骤,每个步骤都要分配一块内存import numpy as npimport pandas as pdimport timeitdf = pd.DataFrame({'a': np.random.randn(10000000), 'b': np....
numpy数据类型 numpy中常见的数据类型如下。在使用的时候依据数据范围选择合适的数据类型,避免占用不必要的内存。Numpy type C type Description np.int8 int8_t Byte (-128 to 127) np.int16 int16_t Integer (-32768 to 32767) np.int32 int32...
numpy copy(无拷贝 浅拷贝、深拷贝)类型说明 numpy copy分为三种,no copy,shallow copy or view,deep copy三种。1 无拷贝简单的复制操作不会产生对象的复制操作。import numpy as npa = np.arange(12)b=a #对象复制,a,b地址一样b.shape = 3,4 #a对象的shape也会变化2 浅拷贝 view操作,如numpy的slic...
xgb 切分点选择 XGBoost是串行生成CART树,但是XGBoost在处理特征时可以做到并行处理,XGBoost并行原理体现在最优切分点的选择,假设样本数据共M个特征,对于某一轮CART树的构建过程中,选择最佳切分点算法如下图:最佳切分点流程图1. 红色框表示根据每个特征大小对训练数据进行排序,保存为block结构,block个数与特征数量相等。2. 绿色宽表示对每个block结构选择最佳特征切分点...
目标函数、损失函数、代价函数 损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)1损失函数 (一般针对个体)我们给定 ,这三个函数都会输出一个 ,这个输出的 与真实值 可能是相同的,也可能是不同的,为了表示我们拟合的好坏,我们就用一个函数来度量拟合的程度,比如: ,这个函数就称为损失函数(loss func...
先验概率和后验概率的区别 从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。假如A代表结果,B代表导致A发生的原因那么P(Bi)表示先验概率P(Bi|A)代表后验概率贝叶斯公式:P(Bi|A)=P(A|Bi)P(Bi)/P(A)...