2018年09月_anshuai_aw1

原创如何理解bagging是减少variance，而boosting是减少bias?

熟悉集成学习的读者，肯定对bagging和boosting都比较熟悉。在学习这二者的时候，肯定都知道一句话：即bagging是减少variance，而boosting是减少bias。那么，为什么是这样的效果呢？本篇博客在总结网上多个回答的基础上，加入了自己的理解。1 variance和bias先看一下什么是variance和biasHigh variance 是model过于复...

2018-09-30 19:55:34 4938 2

原创（一）提升树模型：GBDT原理与实践

在对机器学习各种分类器的学习上，因为学习和工作的原因，自己接触得最多的就是提升树（boosting tree）模型了。之前自己基本都是在使用GBDT，xgboost和lgbm，原理也稍微懂点，当然很多很多细节问题并不是特别明白。因此，我想在现有资料的基础上，加入自己的一些理解，整理出一个关于提升树模型的资料，以便自己和广大对提升树模型感兴趣的朋友随时查阅。很多问题也希望读者可以拍砖。为了写作的...

2018-09-29 16:08:41 8774 24

原创 Windows下sourcetree如何修改账户密码

刚刚遇到了这么一个问题，由于git的账户密码改变了，在windows下使用sourcetree来连接git就会出现账号不对的错误。如何解决呢？很简单。不需要像其它博客那样，删除许多东西。在sourcetree中：工具→选项→验证。将原来的账户删掉，然后关闭sourcetree再打开输入新的账户和密码就可以了。...

2018-09-25 11:07:08 12975 10

原创 Python: Pandas中stack和unstack的形象理解

Python的pandas库是我们经常用到的库之一，不可避免地会应用到数据的reshape。其中，stack和unstack是我们经常用到的操作之一。很多人对这2个操作比较迷惑，在这里，本博客利用几个简单的例子和图来说明这2个操作。1 概述stack和unstack是python进行层次化索引的重要操作。层次化索引就是对索引进行层次化分类，便于使用，这里的索引可以是行索引，也可以是列索引。...

2018-09-24 18:22:25 21241 6

原创 Python: pandas中iloc, loc和ix的区别和联系

Pandas库十分强大，但是对于切片操作iloc, loc和ix，很多人对此十分迷惑，因此本篇博客利用例子来说明这3者之一的区别和联系，尤其是iloc和loc。对于ix，由于其操作有些复杂，我在另外一篇博客专门详细介绍ix。首先，介绍这三种方法的概述：loc gets rows (or columns) with particular labels from the index. lo...

2018-09-21 16:51:46 18425

原创 Python: pandas中ix的详细讲解

在上一篇博客中，我们已经仔细讲解了iloc和loc，只是简单了提到了ix。这是因为相比于前2者，ix更复杂，也更让人迷惑。因此，本篇博客通过例子的解释试图来描述清楚ix，尤其是与iloc和loc的联系。目录1 使用ix切分Series1.1 特点1举例1.2 特点2举例2 在Dataframe中使用ix实现复杂切片3 参考文献首先，再次介绍这三种方法的概述：lo...

2018-09-21 15:59:06 59802 1

转载大数定律的形象理解

之前介绍了统计概率的第2大护法—中心极限定理，详见这里。本篇博客将继续介绍统计概率的第1大护法：大数定律。本篇博客是基于猴子在知乎上的回答，进行的整理。非常感谢猴子的讲解。要理解大数定律，就必然先要理解小数定律。我会从下面3个方面聊聊：1）什么是小数定律？2）什么是大数定律？3）小数定律和大数定律的动态演示案例1 小数定律 ...

2018-09-19 15:22:19 8911 1

转载中心极限定理的形象理解

中心极限定理是统计学中的一个重要定理，本文的目的是形象地讲解中心极限定理，不列举公式。本篇博客是基于猴子在知乎上的回答，进行的整理。非常感谢猴子的讲解。目录1 什么是中心极限定理1.1 简单定义1.2 形象演示1.2.1 例子11.2.2 例子22 中心极限定理应用案例3 如何用样本估计总体3.1 样本标准差与总体标准差3.2 标准误差4 一句...

2018-09-19 12:12:36 6314 4

原创三大抽样分布：卡方分布，t分布和F分布的简单理解

有很多统计推断是基于正态分布的假设，以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用，这是因为这三个统计量不仅有明确背景，而且其抽样分布的密度函数有显式表达式，它们被称为统计中的“三大抽样分布”。这三大抽样分布即为著名的卡方分布，t分布和F分布。目录1 卡方分布（分布）1.1 定义1.2 性质2 t分布2.1 定义2.2 性质3 F分布3.1 ...

2018-09-18 10:58:26 502469 23

原创如何简单理解建假设检验？

1 概论假设检验的假设是关于总体的一个普遍性论断，这个检验是看从样本得出的结论能否推论到总体。假设检验的基本逻辑是基于科学哲学的一个重要论点：全称命题只能被否证而不能被证明。这个道理很简单，个案当然不足以证明一个全称命题，但是却可以否定全称命题。研究时，我们当然不希望否证自己的研究假设，所以我们就搞个和研究假设相反的虚无假设。如果我们否证了虚无假设，就相当于我们证明了研究假设。所以假设...

2018-09-14 10:34:34 1181

原创常见的离散型和连续型随机变量的概率分布

目录1 基本概念2 离散型随机变量的概率分布2.1二项分布2.2超几何分布2.2.1 概念2.2.2 举例2.3泊松分布3 连续型随机变量的概率分布3.1均匀分布3.1.1 概念3.2 正态分布3.2.1 概念3.3指数分布3.3.1 概念3.3.2 举例4 参考文献1 基本概念在之前的博文中，已经明...

2018-09-12 11:37:51 30971 1

原创如何简单理解概率分布函数和概率密度函数？

本篇文章是在《应该如何理解概率分布函数和概率密度函数？》的基础上整理来的。非常感谢原作者。目录1先从离散型随机变量和连续性随机变量说起2离散型随机变量的概率函数，概率分布和分布函数2.1概率函数和概率分布2.1.1概率函数2.1.1概率分布2.2 分布函数3 连续型随机变量的概率函数和分布函数4 参考文献1先从离散型随机变量和连续性随机变量...

2018-09-11 16:56:19 133886 32

原创利用git对Intellij工程进行版本控制

一个Intellij工程，如果有多个人进行开发的话，进行版本的控制是十分必要的。Intellij实现了很好的git接口，因此简单介绍一下如何利用git对Intellij工程进行版本控制。1 将自己的工程push到github上。这个需求是最常见的。常规操作为：点击进去之后是这样的:输入自己的Host，github的账号和密码就行。Host一般为github.com。连接...

2018-09-11 09:55:01 243

原创时间序列分析之指数平滑法（holt-winters及代码）

在做时序预测时，一个显然的思路是：认为离着预测点越近的点，作用越大。比如我这个月体重100斤，去年某个月120斤，显然对于预测下个月体重而言，这个月的数据影响力更大些。假设随着时间变化权重以指数方式下降——最近为0.8，然后0.8**2，0.8**3…，最终年代久远的数据权重将接近于0。将权重按照指数级进行衰减，这就是指数平滑法的基本思想。指数平滑法有几种不同形式：一次指数平滑法针对没有趋势和...

2018-09-07 16:45:20 65676 3

原创利用TPOT完成自动化机器学习

目录1 概述2 使用TPOT2.1 TPOT代码2.2 评估函数2.3 内置TPOT配置2.4 定制TPOT的操作符和参数2.5 NOTE3 TPOT API4 参考文献首先，什么是自动化机器学习？正如Sebastian Raschka描述的那样，假如说计算机程序是关于自动化的，那么机器学习可以看做是“关于自动化的自动化”。那么自动化机器学习就是关于自动...

2018-09-07 16:42:25 11140 5

原创利用sklearn中pipeline构建机器学习工作流

当我们对训练集应用各种预处理操作时（特征标准化、主成分分析等等），我们都需要对测试集重复利用这些参数，以免出现数据泄露（data leakage）。pipeline 实现了对全部步骤的流式化封装和管理（streaming workflows with pipelines），可以很方便地使参数集在新数据集（比如测试集）上被重复使用。Pipeline可以将许多算法模型串联起来，比如将特征提取...

2018-09-07 16:36:47 2609

原创利用贝叶斯优化Hyperopt库进行自动化机器学习参数调优

之前自己一直使用网格搜索(grid-search)来进行参数调优。显然，这种方法调优的候选集很有限，也比较“粗糙”。因此，性能往往不能达到最优。如今越来越多的超参数调优过程都是通过自动化的方法完成的，它们旨在使用带有策略的启发式搜索（informed search）在更短的时间内找到最优超参数，除了初始设置之外，并不需要额外的手动操作。贝叶斯优化是一种基于模型的用于寻找函数最小值的方法。近段时...

2018-09-07 16:32:59 2987

原创模型融合之stacking&blending原理及代码

目录1 Stacking1.1 概念1.2 python实现2 Blending2.1 概念2.2 python实现3 Stacking和Blending对比4 参考文献模型融合的基本思想就是通过对多个单模型融合以提升整体性能。平常自己一般都使用最简单的方法，比如说对分类问题，采用voting，对回归问题，采用加权averaging。今天简单介绍下stack...

2018-09-07 16:29:45 9549

原创 Python：sklearn数据预处理中fit(),transform()与fit_transform()的区别

1 概述注意这是数据预处理中的方法：Fit(): Method calculates the parameters μ and σ and saves them as internal objects.解释：简单来说，就是求得训练集X的均值啊，方差啊，最大值啊，最小值啊这些训练集X固有的属性。可以理解为一个训练过程Transform(): Method using these cal...

2018-09-07 16:17:23 66052 4

原创 Python 中的下划线命名规则

目录1 变量1.1 _xxx1.2 __xxx1.3 __xxx__1.4 xxx_1.52 函数和方法2.1 受保护方法：小写和一个前导下划线2.2 特殊方法：小写和两个前导下划线，两个后置下划线3. 类4. 模块和包5.参考文献如何定义python中变量名，函数名，类名以及包名1 变量1.1 _xxx单下划线开头的变量，表明这是一...

2018-09-07 16:09:09 1538

原创 Python引入自定义模块

目录1 python基本概念1.1 python模块1.2 python包2 场景应用2.1 导入同级目录文件2.2 导入子目录文件自己手动写了一些.py文件，在互相import的时候总是出错。搞了一下午，终于解决了问题。要注意得是，必须要理清python中的几个概念：模块(Module)和包。1 python基本概念1.1 python模块Python 模...

2018-09-03 12:46:47 7169

原创 Python中的lambda和apply用法

目录1 lambda1.1 举最简单的例子1.2 再举一个普通的例子2 Apply2.1 举例2.2 下面的例子是DataFrame中apply的用法3 参考文献1 lambdalambda原型为：lambda 参数:操作(参数)lambda函数也叫匿名函数，即没有具体名称的函数，它允许快速定义单行函数，可以用在任何需要函数的地方。这区别于def定义的函数。...

2018-09-03 12:38:10 114949 11

原创 Python中if name == 'main'，init和self 的解析

文章主要包括2部分内容，分别是if __name__ == '__main__'的解析和__init__与self的解析。目录1 if __name__ == '__main__'1.1 摘要1.2程序入口1.2.1一个.py文件被其他.py文件引用1.2.2修改const.py，添加if __name__ == "__main__"2 __init__与self...

2018-09-03 10:32:21 100108 35

anshuai_aw1的博客