- 博客(18)
- 资源 (7)
- 收藏
- 关注
转载 牛顿法
牛顿法用于最优化在最优化的问题中,线性最优化至少可以使用单纯行法求解,但对于非线性优化问题,牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f'=0的问题,这样求可以把优化问题看成方程求解问题(f'=0)。剩下的问题就和第一部分提到的牛顿法求解很相似了。这次为了求解f'=0的根,把f(x)的泰勒展开,展开到2阶形式:上面的表...
2019-06-27 20:25:07 216
原创 python利用eval方法提升dataframe运算性能
eval方法可以直接利用c语言的速度,而不用分配中间数组,不需要中间内存的占用.如果包含多个步骤,每个步骤都要分配一块内存import numpy as npimport pandas as pdimport timeitdf = pd.DataFrame({'a': np.random.randn(10000000), 'b': np....
2019-06-19 16:47:28 2001
原创 numpy数据类型
numpy中常见的数据类型如下。在使用的时候依据数据范围选择合适的数据类型,避免占用不必要的内存。Numpy type C type Description np.int8 int8_t Byte (-128 to 127) np.int16 int16_t Integer (-32768 to 32767) np.int32 int32...
2019-06-19 11:36:22 516
原创 numpy copy(无拷贝 浅拷贝、深拷贝)类型说明
numpy copy分为三种,no copy,shallow copy or view,deep copy三种。1 无拷贝简单的复制操作不会产生对象的复制操作。import numpy as npa = np.arange(12)b=a #对象复制,a,b地址一样b.shape = 3,4 #a对象的shape也会变化2 浅拷贝 view操作,如numpy的slic...
2019-06-19 10:52:44 23216 2
转载 xgb 切分点选择
XGBoost是串行生成CART树,但是XGBoost在处理特征时可以做到并行处理,XGBoost并行原理体现在最优切分点的选择,假设样本数据共M个特征,对于某一轮CART树的构建过程中,选择最佳切分点算法如下图:最佳切分点流程图1. 红色框表示根据每个特征大小对训练数据进行排序,保存为block结构,block个数与特征数量相等。2. 绿色宽表示对每个block结构选择最佳特征切分点...
2019-06-18 17:50:34 1346
原创 目标函数、损失函数、代价函数
损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)1损失函数 (一般针对个体)我们给定 ,这三个函数都会输出一个 ,这个输出的 与真实值 可能是相同的,也可能是不同的,为了表示我们拟合的好坏,我们就用一个函数来度量拟合的程度,比如: ,这个函数就称为损失函数(loss func...
2019-06-15 21:39:49 400
原创 先验概率和后验概率的区别
从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。假如A代表结果,B代表导致A发生的原因那么P(Bi)表示先验概率P(Bi|A)代表后验概率贝叶斯公式:P(Bi|A)=P(A|Bi)P(Bi)/P(A)...
2019-06-15 21:17:00 7367
原创 条件概率公式 全概率公式 贝叶斯概率公式对比
1 条件概率公式: P(A|B)代表事件B发生的情况下A发生的概率。P(A|B)=P(AB)/P(B)2 全概率公式A代表结果,B代表原因。导致A发生的原因B可以细化为B1、B2......Bn 。其中B1----Bn事件互斥,不可能同时出现。P(A)=P(AB1)+P(AB2)+.....+P(ABn) =P(A|B1)P(B1)+P(A|B2)...
2019-06-15 21:05:17 12690
原创 置信区间计算
而区间估计又称为置信区间估计,要得到一个置信区间需要样本统计量(比如均值)和从数据中计算出方差,中心极限定理告诉我们均值会接近一个高斯分布,我们可以用标准差计算出真实期望落在选定区间的概率,例如,以均值μ^为中心的概率为0.95的区域为(基于高斯分布):0.95是置信水平,0.05是显著性水平在置信水平为0.95下的置信区间为表达方式:interval(c1,c2) - 置信区间。...
2019-06-14 13:18:58 15465
原创 显著性水平 p值 z值
1 显著性水平显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。α表示原假设为真时,拒绝原假设的概率。1-α 为置信度或置信水平,其表明了区间估计的可靠性 。2 P值P值代表,在假设原假设(HO)正确时,出现现状或更差的情况的概率.设置一个想要推翻的结论的对立面的null hypothesis,而P值就是假设null hypothesis成立的情况下,计算...
2019-06-14 11:38:03 67023
转载 威尔逊区间法
1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式,被称为"威尔逊区间",地解决了小样本的准确性问题。在上面的公式中,表示样本的"赞成票比例",n表示样本的大小,表示对应某个置信水平的z统计量,这是一个常数,可以通过查表或统计软件包得到。一般情况下,在95%的置信水平下,z统计量的值为1.96。威尔逊置信区间的均值为它的下限值为可以看到,...
2019-06-13 21:55:44 1933
原创 lightgbm 使用示例
x_train, x_test, y_train, y_test = train_test_split(feature_df, label_df, test_size=0.33, random_state=42)train_data = lgb.Dataset(data=x_train,label=y_train)test_data = lgb.Dataset(data=x_test,l...
2019-06-12 13:02:47 4097
转载 梯度下降法和牛顿法的总结与比较
机器学习的本质是建立优化模型,通过优化方法,不断迭代参数向量,找到使目标函数最优的参数向量。最终建立模型通常用到的优化方法:梯度下降方法、牛顿法、拟牛顿法等。这些优化方法的本质就是在更新参数。一、梯度下降法 0、梯度下降的思想· 通过搜索方向和步长来对参数进行更新。其中搜索方向是目标函数在当前位置的负梯度方向。因为这个方向是最快的下降方向。步长确定了沿着这个搜索方向下降的大...
2019-06-11 21:17:53 14291
转载 XGBoost与GBDT(一)-几种最优化方法对比
前言今天翻了下gayhub,随手点进去了follow的一个大佬wepe,看到一个非常和谐的repo名:tgboost.看完readme发现了作者的一个pptGBDT算法原理与系统设计简介,平时工作接触的比较少,对于这俩算法一直都是处于一知半解的状态.这回从头复习了一波相关的内容,写两篇记录下来.从根本上来说, GBDT 与XGBoost最大的区别在于二者用的优化方法不一样,所以从先从最优化方...
2019-06-11 21:10:32 2421
原创 cart 分类回归树分类和回归节点split原理
classification and regression trees 简称分类回归树,可以用来处理分类或者回归问题。分类树的节点split依据选择gini系数最小的分裂点,gini系数越小不确定性越小。回归树的节点分类采用最小方差作为分裂点的依据。对特征A,计算所有属性值的切分结果S1和S2数据集的方差,计算S1和S2的方差之和,取最小的为分裂点和分裂特征index为此次最优切分方...
2019-06-11 13:12:18 2056
原创 cart树的代码示例参考机器学习实战
from numpy import *import numpy as npimport pickleimport matplotlib.pyplot as pltimport sysfrom matplotlib.font_manager import FontProperties # 设置字体属性def loadDataSet(fileName): ''' 读取...
2019-06-11 13:02:30 684
原创 随机森林总结
1 随机有放回抽样训练数据,每棵树的训练集都可能包含重复样本,2 随机从特征中选择选择几个特征3 有放回抽样的意义:如果不是有放回抽样,会导致训练出来的每棵树之间差异很大,而随机森林是采用投票的方式获得结果,如果树之间的差异很大,那么无异于盲人摸象。求同存异是随机森林的训练思想。4 两个随机使得随机森林具有很好的抗干扰性,不容易陷入过拟合。5 随机森林分类的错误率与两个因素相关:...
2019-06-10 19:45:14 378
转载 Python内存池管理与缓冲池设计
Python是一门开发效率很高的语言,而且其既下里巴人,又阳春白雪。也就是说这门语言只要稍加学习就可以上手开发,而深入探究也会发现Python有很多高深的东西。最近读了《Python源码剖析》,收获良多,今天就把Python的内存管理整理一番。本文的组织如下:第一部分:整理Python的内存管理机制,主要包括内存池以及对象缓存池第二部分:从百度的笔试题来探讨如何实现一个缓存池。第一部...
2019-06-02 12:59:32 356
美团-机器学习-实践_最新AI算法实践真知
2018-11-22
elasticsearch-the-definitive-guide-cn
2018-08-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人