genghaihua-CSDN博客

原创 seaborn heatmap 热力图

fig, axes =plt.subplots(1,2)# print(train_df.corr())sns.heatmap(train_df.corr(), square=True, annot=True,ax=axes[0])sns.heatmap(train_df.corr(), annot=True,ax=axes[1])plt.show()可以看到各个特征变量之间的相关性都比较小（一般相关系数大于0.6可以进行变量剔除)。...

2020-05-21 18:04:01 1260

原创 seaborn violinplot小提琴图

小提琴图是用来展示多组数据的分布状态以及概率密度。跟箱线图类似，但是可以密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。小提琴图如下:小提琴图各位置对应参数，中间一条就是箱线图数据，25%，50%，75%位置，细线区间为95%置信区间。import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('d..

2020-05-21 16:48:07 1682

原创 seaborn boxplot 箱线图

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.

2020-05-21 16:23:59 2033

原创 Seaborn distplot 核密度估计和直方图估计混合

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.

2020-05-21 15:22:17 757

原创 seaborn kdeplot 核密度估计

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.

2020-05-21 14:50:13 1052 1

原创 seaborn countplot 统计

value counts for a single and tow categorical variable # coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt....

2020-05-21 14:18:39 913

原创分类模型指标ks的含义

如果理解ROC曲线的话，就很容易理解KS了。roc横纵坐标分别为FPR、TPR。KS横轴为阈值，纵轴为不同阈值下的TPR，FPR，KS值是MAX(TPR - FPR），即两曲线相距最远的距离ks值含义 > 0.3 模型预测性较好 0,2~0.3 模型可用 0~0.2 模型预测能力较差 < 0 模型错误征信模型中，最期望得到的信用分数分布是正态分布，对于正负样本分别而言，也都是期望呈正态分布的样子。如果KS值过大，一般...

2020-05-15 11:05:21 6989

原创 mysql 获取指定index的列，查询第几列的数据

有同事面试问道这个题目，无聊之下实现了一下。SET @table_name="dim_app_id_source";#表名SET @position_index=3;#第几列SET @limit_num=20;#取多少条数据SET @col_name = (SELECT COLUMN_NAME FROM information_schema.COLUMNS WHERE table_na...

2020-04-29 16:53:49 2859

转载 XGBoost二阶泰勒展开公式推导

2020-01-07 13:00:35 4651

转载机器学习--Logistic回归计算过程的推导

Logistic回归总结作者：洞庭之子微博：洞庭之子-Bing（2013年11月）PDF下载地址：http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解，然后又看了《机器学习实战》中的LogisticR...

2019-12-27 17:24:57 321

原创 securecrt不同session在同一个窗口打开

点击session，右键，选择上open sessions in a tap

2019-10-15 10:17:00 2991

转载 Python 确定多项式拟合/回归的阶数

通过 1至10 阶来拟合对比均方误差及R评分，可以确定最优的“最大阶数”。import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegression,Perce...

2019-07-26 13:23:59 2714 1

转载协方差矩阵的向量表示推导

多维随机变量的协方差矩阵对多维随机变量X=[X1,X2,…,Xn]TX=[X1,X2,…,Xn]T，我们往往需要计算各维度之间的协方差，这样协方差就组成了一个n×nn×n的矩阵，称为协方差矩阵。协方差矩阵是一个对角矩阵，对角线上的元素是各维度上随机变量的方差。我们定义协方差为ΣΣ, 矩相关性，而不是对象之间的，所以协方差矩阵的大小与维度相同。cici表示第i维的随机变量。这里分母为m...

2019-07-08 14:16:28 2173

转载牛顿法

牛顿法用于最优化在最优化的问题中，线性最优化至少可以使用单纯行法求解，但对于非线性优化问题，牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f，求函数f的极大极小问题，可以转化为求解函数f的导数f'=0的问题，这样求可以把优化问题看成方程求解问题（f'=0）。剩下的问题就和第一部分提到的牛顿法求解很相似了。这次为了求解f'=0的根，把f（x）的泰勒展开，展开到2阶形式：上面的表...

2019-06-27 20:25:07 245

原创 python利用eval方法提升dataframe运算性能

eval方法可以直接利用c语言的速度，而不用分配中间数组，不需要中间内存的占用.如果包含多个步骤，每个步骤都要分配一块内存import numpy as npimport pandas as pdimport timeitdf = pd.DataFrame({'a': np.random.randn(10000000), 'b': np....

2019-06-19 16:47:28 2067

原创 numpy数据类型

numpy中常见的数据类型如下。在使用的时候依据数据范围选择合适的数据类型，避免占用不必要的内存。Numpy type C type Description np.int8 int8_t Byte (-128 to 127) np.int16 int16_t Integer (-32768 to 32767) np.int32 int32...

2019-06-19 11:36:22 553

原创 numpy copy(无拷贝浅拷贝、深拷贝)类型说明

numpy copy分为三种，no copy，shallow copy or view,deep copy三种。1 无拷贝简单的复制操作不会产生对象的复制操作。import numpy as npa = np.arange(12)b=a #对象复制,a,b地址一样b.shape = 3,4 #a对象的shape也会变化2 浅拷贝 view操作，如numpy的slic...

2019-06-19 10:52:44 24033 2

转载 xgb 切分点选择

XGBoost是串行生成CART树，但是XGBoost在处理特征时可以做到并行处理，XGBoost并行原理体现在最优切分点的选择，假设样本数据共M个特征，对于某一轮CART树的构建过程中，选择最佳切分点算法如下图：最佳切分点流程图1. 红色框表示根据每个特征大小对训练数据进行排序，保存为block结构，block个数与特征数量相等。2. 绿色宽表示对每个block结构选择最佳特征切分点...

2019-06-18 17:50:34 1402

原创目标函数、损失函数、代价函数

损失函数和代价函数是同一个东西，目标函数是一个与他们相关但更广的概念，对于目标函数来说在有约束条件下的最小化就是损失函数（loss function）1损失函数 (一般针对个体)我们给定，这三个函数都会输出一个 ,这个输出的与真实值可能是相同的，也可能是不同的，为了表示我们拟合的好坏，我们就用一个函数来度量拟合的程度，比如：，这个函数就称为损失函数(loss func...

2019-06-15 21:39:49 447

原创先验概率和后验概率的区别

从原因到结果的论证称为“先验的”，而从结果到原因的论证称为“后验的”。假如A代表结果，B代表导致A发生的原因那么P(Bi)表示先验概率P(Bi|A)代表后验概率贝叶斯公式：P(Bi|A)=P(A|Bi)P(Bi)/P(A)...

2019-06-15 21:17:00 7525

原创条件概率公式全概率公式贝叶斯概率公式对比

1 条件概率公式: P(A|B)代表事件B发生的情况下A发生的概率。P(A|B)=P(AB)/P(B)2 全概率公式A代表结果，B代表原因。导致A发生的原因B可以细化为B1、B2......Bn 。其中B1----Bn事件互斥，不可能同时出现。P(A)=P(AB1)+P(AB2)+.....+P(ABn) =P(A|B1)P(B1)+P(A|B2)...

2019-06-15 21:05:17 13154

原创置信区间计算

而区间估计又称为置信区间估计，要得到一个置信区间需要样本统计量（比如均值）和从数据中计算出方差，中心极限定理告诉我们均值会接近一个高斯分布，我们可以用标准差计算出真实期望落在选定区间的概率，例如，以均值μ^为中心的概率为0.95的区域为（基于高斯分布）：0.95是置信水平，0.05是显著性水平在置信水平为0.95下的置信区间为表达方式：interval(c1,c2) - 置信区间。...

2019-06-14 13:18:58 15677

原创显著性水平 p值 z值

1 显著性水平显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，用α表示。α表示原假设为真时，拒绝原假设的概率。1-α 为置信度或置信水平，其表明了区间估计的可靠性。2 P值Ｐ值代表，在假设原假设（HO)正确时，出现现状或更差的情况的概率.设置一个想要推翻的结论的对立面的null hypothesis，而Ｐ值就是假设null hypothesis成立的情况下，计算...

2019-06-14 11:38:03 70170

转载威尔逊区间法

1927年，美国数学家 Edwin Bidwell Wilson提出了一个修正公式，被称为"威尔逊区间",地解决了小样本的准确性问题。在上面的公式中，表示样本的"赞成票比例"，n表示样本的大小，表示对应某个置信水平的z统计量，这是一个常数，可以通过查表或统计软件包得到。一般情况下，在95%的置信水平下，z统计量的值为1.96。威尔逊置信区间的均值为它的下限值为可以看到，...

2019-06-13 21:55:44 2081

原创 lightgbm 使用示例

x_train, x_test, y_train, y_test = train_test_split(feature_df, label_df, test_size=0.33, random_state=42)train_data = lgb.Dataset(data=x_train,label=y_train)test_data = lgb.Dataset(data=x_test,l...

2019-06-12 13:02:47 4175

转载梯度下降法和牛顿法的总结与比较

机器学习的本质是建立优化模型，通过优化方法，不断迭代参数向量，找到使目标函数最优的参数向量。最终建立模型通常用到的优化方法：梯度下降方法、牛顿法、拟牛顿法等。这些优化方法的本质就是在更新参数。一、梯度下降法　　0、梯度下降的思想·　　　　通过搜索方向和步长来对参数进行更新。其中搜索方向是目标函数在当前位置的负梯度方向。因为这个方向是最快的下降方向。步长确定了沿着这个搜索方向下降的大...

2019-06-11 21:17:53 14404

转载 XGBoost与GBDT(一)-几种最优化方法对比

前言今天翻了下gayhub,随手点进去了follow的一个大佬wepe,看到一个非常和谐的repo名:tgboost.看完readme发现了作者的一个pptGBDT算法原理与系统设计简介,平时工作接触的比较少,对于这俩算法一直都是处于一知半解的状态.这回从头复习了一波相关的内容,写两篇记录下来.从根本上来说, GBDT 与XGBoost最大的区别在于二者用的优化方法不一样,所以从先从最优化方...

2019-06-11 21:10:32 2499

原创 cart 分类回归树分类和回归节点split原理

classification and regression trees 简称分类回归树，可以用来处理分类或者回归问题。分类树的节点split依据选择gini系数最小的分裂点，gini系数越小不确定性越小。回归树的节点分类采用最小方差作为分裂点的依据。对特征A，计算所有属性值的切分结果S1和S2数据集的方差，计算S1和S2的方差之和，取最小的为分裂点和分裂特征index为此次最优切分方...

2019-06-11 13:12:18 2167

原创 cart树的代码示例参考机器学习实战

from numpy import *import numpy as npimport pickleimport matplotlib.pyplot as pltimport sysfrom matplotlib.font_manager import FontProperties # 设置字体属性def loadDataSet(fileName): ''' 读取...

2019-06-11 13:02:30 722

原创随机森林总结

1 随机有放回抽样训练数据,每棵树的训练集都可能包含重复样本，2 随机从特征中选择选择几个特征3 有放回抽样的意义：如果不是有放回抽样，会导致训练出来的每棵树之间差异很大，而随机森林是采用投票的方式获得结果，如果树之间的差异很大，那么无异于盲人摸象。求同存异是随机森林的训练思想。4 两个随机使得随机森林具有很好的抗干扰性，不容易陷入过拟合。5 随机森林分类的错误率与两个因素相关：...

2019-06-10 19:45:14 412

转载 Python内存池管理与缓冲池设计

Python是一门开发效率很高的语言，而且其既下里巴人，又阳春白雪。也就是说这门语言只要稍加学习就可以上手开发，而深入探究也会发现Python有很多高深的东西。最近读了《Python源码剖析》，收获良多，今天就把Python的内存管理整理一番。本文的组织如下：第一部分：整理Python的内存管理机制，主要包括内存池以及对象缓存池第二部分：从百度的笔试题来探讨如何实现一个缓存池。第一部...

2019-06-02 12:59:32 410

转载先验分布/后验分布/似然估计

image.png先验概率，后验概率，似然概率，条件概率，贝叶斯，最大似然似然函数,最大似然估计最大似然估计和最大后验概率估计的区别相信读完上文，MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者，也可以反过来，认为MLE是把先验概率P(θ)认为等于1，即认为θ是均匀分布。详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的...

2019-05-16 19:57:00 812

转载 PCA学习与应用

一、PCA简介1. 相关背景主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后，颇有体会。最近在做主成分分析和奇异值分解方面的项目，所以记录一下心得体会。在许多领域的...

2019-05-15 16:12:00 234

原创最小二乘法矩阵形式推导

2019-05-10 14:46:35 9464

转载最小二乘法推导

前言普通最小二乘法（ordinary least squares,OLS）是线性回归预测问题中一个很重要的概念，在Introductory Econometrics A Modern Approach (Fourth Edition)第2章简单回归模型中，花了很详细的篇幅对此作出介绍。应聘数据挖掘岗位，就有考到对普通最小二乘法的推导证明。最小二乘法十分有用，例如可以用...

2019-05-10 14:26:13 27316

转载 Logistic回归推理过程

3. 具体过程3.1 构造预测函数Logistic Regression虽然名字里带“回归”，但是它实际上是一种分类方法，用于两分类问题（即输出只有两种）。根据第二章中的步骤，需要先找到一个预测函数（h），显然，该函数的输出必须是两个值（分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数），函数形式为：对应的函数图像是一个取值在0和1...

2019-05-09 13:42:16 552

原创 python DataFrame onehot编码，一列变多列

import pandas as pdcarria_code_dict={"CZ":0,"SC":1,"Y8":2,"3U":3,"MU":4,"NS":5}carria_len=carria_code_dict.__len__()def encode_data(str): datas=str.split(',') encode_result=['0']*carria_le...

2019-05-08 17:37:45 3760

原创 Wilcoxon ci_lower_bound 排序

PROBLEM: You are a web programmer. You have users. Your users rate stuff on your site. You want to put the highest-rated stuff at the top and lowest-rated at the bottom. You need some sort of “score” ...

2019-05-07 15:22:59 295

原创置信区间和置信度

2019-05-07 14:58:01 1300

原创 WeakHashMap

要明白WeekHashMap的工作原理，还需要引入一个概念：弱引用（WeakReference）。我们都知道Java中内存是通过GC自动管理的，GC会在程序运行过程中自动判断哪些对象是可以被回收的，并在合适的时机进行内存释放。GC判断某个对象是否可被回收的依据是，是否有有效的引用指向该对象。如果没有有效引用指向该对象（基本意味着不存在访问该对象的方式），那么该对象就是可回收的。这里的“有效引用...

2019-05-06 20:30:09 182

hive调优总结文档-hive tuning ppt

elasticsearch-the-definitive-guide-cn

美团-机器学习-实践_最新AI算法实践真知

空空如也