自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

花花公子

中关村打工仔

原创 seaborn heatmap 热力图

fig, axes =plt.subplots(1,2) # print(train_df.corr()) sns.heatmap(train_df.corr(), square=True, annot=True,ax=axes[0]) sns.heatmap(train_df.corr(), ...

2020-05-21 18:04:01 60 0

原创 seaborn violinplot小提琴图

小提琴图是用来展示多组数据的分布状态以及概率密度。跟箱线图类似,但是可以密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。 小提琴图如下: 小提琴图各位置对应参数,中间一条就是箱线图数据,25%,50%,75%位置,细线区间为95%置信区间。 impor...

2020-05-21 16:48:07 85 0

原创 seaborn boxplot 箱线图

# coding=utf-8 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt pd.set_option('display.max_columns&...

2020-05-21 16:23:59 67 0

原创 Seaborn distplot 核密度估计和直方图估计混合

# coding=utf-8 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt pd.set_option('display.max_columns&...

2020-05-21 15:22:17 64 0

原创 seaborn kdeplot 核密度估计

# coding=utf-8 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt pd.set_option('display.max_columns&...

2020-05-21 14:50:13 59 0

原创 seaborn countplot 统计

value counts for a single and tow categorical variable # coding=utf-8 import pandas as pd import numpy as np import seaborn as sns import matplot...

2020-05-21 14:18:39 25 0

原创 分类模型指标ks的含义

如果理解ROC曲线的话,就很容易理解KS了。roc横纵坐标分别为FPR、TPR。 KS横轴为阈值,纵轴为不同阈值下的TPR,FPR,KS值是MAX(TPR - FPR),即两曲线相距最远的距离 ks值 含义 > 0.3 模型预测性较好 0,2~0.3 模型可...

2020-05-15 11:05:21 110 0

原创 mysql 获取指定index的列,查询第几列的数据

有同事面试问道这个题目,无聊之下实现了一下。 SET @table_name="dim_app_id_source";#表名 SET @position_index=3;#第几列 SET @limit_num=20;#取多少条数据 SET @col_name = (SELE...

2020-04-29 16:53:49 257 0

转载 XGBoost二阶泰勒展开公式推导

2020-01-07 13:00:35 306 0

转载 机器学习--Logistic回归计算过程的推导

Logistic回归总结 作者:洞庭之子 微博:洞庭之子-Bing (2013年11月) PDF下载地址:http://download.csdn.net/detail/lewsn2008/6547463 1.引言 看了Stanford的Andrew Ng老师的机器学习公开课中...

2019-12-27 17:24:57 46 0

原创 securecrt不同session在同一个窗口打开

点击session,右键,选择上open sessions in a tap

2019-10-15 10:17:00 333 0

转载 Python 确定多项式拟合/回归的阶数

通过 1至10 阶来拟合对比 均方误差及R评分,可以确定最优的“最大阶数”。 import numpy as np import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures from...

2019-07-26 13:23:59 338 1

转载 协方差矩阵的向量表示推导

多维随机变量的协方差矩阵 对多维随机变量X=[X1,X2,…,Xn]TX=[X1,X2,…,Xn]T,我们往往需要计算各维度之间的协方差,这样协方差就组成了一个n×nn×n的矩阵,称为协方差矩阵。协方差矩阵是一个对角矩阵,对角线上的元素是各维度上随机变量的方差。 我们定义协方差为ΣΣ, 矩 相关...

2019-07-08 14:16:28 565 0

转载 牛顿法

牛顿法用于最优化 在最优化的问题中,线性最优化至少可以使用单纯行法求解,但对于非线性优化问题,牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f'=0的问题,这样求可以把优化问题看成方程求解问题(f'=0)。剩下的问题...

2019-06-27 20:25:07 74 0

原创 python利用eval方法提升dataframe运算性能

eval方法可以直接利用c语言的速度,而不用分配中间数组,不需要中间内存的占用. 如果包含多个步骤,每个步骤都要分配一块内存 import numpy as np import pandas as pd import timeit df = pd.DataFrame({'a&#...

2019-06-19 16:47:28 656 0

原创 numpy数据类型

numpy中常见的数据类型如下。在使用的时候依据数据范围选择合适的数据类型,避免占用不必要的内存。 Numpy type C type Description np.int8 int8_t Byte (-128 to 127) np.int16 int16_...

2019-06-19 11:36:22 56 0

原创 numpy copy(无拷贝 浅拷贝、深拷贝)类型说明

numpy copy分为三种,no copy,shallow copy or view,deep copy三种。 1 无拷贝 简单的复制操作不会产生对象的复制操作。 import numpy as np a = np.arange(12) b=a #对象复制,a,b地址一样 b.shape...

2019-06-19 10:52:44 4540 1

转载 xgb 切分点选择

XGBoost是串行生成CART树,但是XGBoost在处理特征时可以做到并行处理,XGBoost并行原理体现在最优切分点的选择,假设样本数据共M个特征,对于某一轮CART树的构建过程中,选择最佳切分点算法如下图: 最佳切分点流程图 1. 红色框表示根据每个特征大小对训练数据进行排序,保存为b...

2019-06-18 17:50:34 526 0

原创 目标函数、损失函数、代价函数

损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function) 1损失函数 (一般针对个体) 我们给定 ,这三个函数都会输出一个 ,这个输出的 与真实值 可能是相同的,也可能是不同的,为了表示我们拟...

2019-06-15 21:39:49 81 0

原创 先验概率和后验概率的区别

从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。 假如A代表结果,B代表导致A发生的原因 那么P(Bi)表示先验概率 P(Bi|A)代表后验概率 贝叶斯公式: P(Bi|A)=P(A|Bi)P(Bi)/P(A) ...

2019-06-15 21:17:00 2704 0

原创 条件概率公式 全概率公式 贝叶斯概率公式对比

1 条件概率公式: P(A|B)代表事件B发生的情况下A发生的概率。 P(A|B)=P(AB)/P(B) 2 全概率公式 A代表结果,B代表原因。导致A发生的原因B可以细化为B1、B2......Bn 。其中B1----Bn事件互斥,不可能同时出现。 P(A)=P(AB1)+P(A...

2019-06-15 21:05:17 451 0

原创 置信区间计算

而区间估计又称为置信区间估计,要得到一个置信区间需要样本统计量(比如均值)和从数据中计算出方差,中心极限定理告诉我们均值会接近一个高斯分布,我们可以用标准差计算出真实期望落在选定区间的概率,例如,以均值μ^为中心的概率为0.95的区域为(基于高斯分布): 0.95是置信水平,0.05是显著性...

2019-06-14 13:18:58 3477 0

原创 显著性水平 p值 z值

1 显著性水平 显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。 α表示原假设为真时,拒绝原假设的概率。 1-α 为置信度或置信水平,其表明了区间估计的可靠性 。 2 P值 P值代表,在假设原假设(HO)正确时,出现现状或更差的情况的概率. 设置一个想要推翻的结论的...

2019-06-14 11:38:03 10188 0

转载 威尔逊区间法

1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为"威尔逊区间",地解决了小样本的准确性问题。 在上面的公式中,表示样本的"赞成票比例",n表示样本的大小,表示对应某个置信水平的z统计量,这是一个常数,可以通过查...

2019-06-13 21:55:44 500 0

原创 lightgbm 使用示例

x_train, x_test, y_train, y_test = train_test_split(feature_df, label_df, test_size=0.33, random_state=42) train_data = lgb.Dataset(data=x_train,la...

2019-06-12 13:02:47 1596 0

转载 梯度下降法和牛顿法的总结与比较

机器学习的本质是建立优化模型,通过优化方法,不断迭代参数向量,找到使目标函数最优的参数向量。最终建立模型 通常用到的优化方法:梯度下降方法、牛顿法、拟牛顿法等。这些优化方法的本质就是在更新参数。 一、梯度下降法   0、梯度下降的思想 ·    通过搜索方向和步长来对参数进行更新。其中搜索...

2019-06-11 21:17:53 2738 0

转载 XGBoost与GBDT(一)-几种最优化方法对比

前言 今天翻了下gayhub,随手点进去了follow的一个大佬wepe,看到一个非常和谐的repo名:tgboost.看完readme发现了作者的一个pptGBDT算法原理与系统设计简介,平时工作接触的比较少,对于这俩算法一直都是处于一知半解的状态.这回从头复习了一波相关的内容,写两篇记录下来...

2019-06-11 21:10:32 899 0

原创 cart 分类回归树分类和回归节点split原理

classification and regression trees 简称分类回归树,可以用来处理分类或者回归问题。 分类树的节点split依据选择gini系数最小的分裂点,gini系数越小不确定性越小。 回归树的节点分类采用最小方差作为分裂点的依据。 对特征A,计算所有属性值的切分结果S...

2019-06-11 13:12:18 944 0

原创 cart树的代码示例参考机器学习实战

from numpy import * import numpy as np import pickle import matplotlib.pyplot as plt import sys from matplotlib.font_manager import FontProperties #...

2019-06-11 13:02:30 224 0

原创 随机森林总结

1 随机有放回抽样训练数据,每棵树的训练集都可能包含重复样本, 2 随机从特征中选择选择几个特征 3 有放回抽样的意义:如果不是有放回抽样,会导致训练出来的每棵树之间差异很大,而随机森林是采用投票的方式获得结果,如果树之间的差异很大,那么无异于盲人摸象。求同存异是随机森林的训练思想。 4 两...

2019-06-10 19:45:14 53 0

转载 Python内存池管理与缓冲池设计

Python是一门开发效率很高的语言,而且其既下里巴人,又阳春白雪。也就是说这门语言只要稍加学习就可以上手开发,而深入探究也会发现Python有很多高深的东西。最近读了《Python源码剖析》,收获良多,今天就把Python的内存管理整理一番。 本文的组织如下: 第一部分:整理Python的内存...

2019-06-02 12:59:32 72 0

转载 先验分布/后验分布/似然估计

image.png 先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然似然函数,最大似然估计 最大似然估计和最大后验概率估计的区别 相信读完上文,MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等...

2019-05-16 19:57:00 176 0

转载 PCA学习与应用

一、PCA简介 1. 相关背景 主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》...

2019-05-15 16:12:00 63 0

原创 最小二乘法矩阵形式推导

2019-05-10 14:46:35 2074 0

转载 最小二乘法推导

前言 普通最小二乘法(ordinary least squares,OLS)是线性回归预测问题中一个很重要的概念,在Introductory Econometrics A Modern Approach (Fourth Edition)第2章 简单回归模型 中,花了很详细的篇幅对此作出介绍。应...

2019-05-10 14:26:13 1589 0

转载 Logistic回归推理过程

3. 具体过程 3.1 构造预测函数 Logistic Regression虽然名字里带“回归”,但是它实际上是一种分类方法,用于两分类问题(即输出只有两种)。根据第二章中的步骤,需要先找到一个预测函数(h),显然,该函数的输出必须是两个值(分别代表两个类别),所以利用了Logistic函数(...

2019-05-09 13:42:16 173 0

原创 python DataFrame onehot编码,一列变多列

import pandas as pd carria_code_dict={"CZ":0,"SC":1,"Y8":2,"3U":3,"MU":4,"NS":5} carria_l...

2019-05-08 17:37:45 1801 0

原创 Wilcoxon ci_lower_bound 排序

PROBLEM: You are a web programmer. You have users. Your users rate stuff on your site. You want to put the highest-rated stuff at the top and lowest-...

2019-05-07 15:22:59 69 0

原创 置信区间和置信度

2019-05-07 14:58:01 755 0

原创 WeakHashMap

要明白WeekHashMap的工作原理,还需要引入一个概念:弱引用(WeakReference)。我们都知道Java中内存是通过GC自动管理的,GC会在程序运行过程中自动判断哪些对象是可以被回收的,并在合适的时机进行内存释放。GC判断某个对象是否可被回收的依据是,是否有有效的引用指向该对象。如果没...

2019-05-06 20:30:09 26 0

提示
确定要删除当前文章?
取消 删除