2017年10月_一路前行1

转载 GridSearchCV调参方法

Python 2.7IDE Pychrm 5.0.3sci-kit learn 0.18.1前言抖了个机灵，不要来打我，这是没有理论依据证明的，只是模型测试出来的确有效，并且等待时间下降(约)为原来的十分之一！！刺不刺激，哈哈哈。原理基本思想：先找重点在细分，再细分，伸缩Flexible你怕不怕。以下简称这种方法为FCV不知道CV的请看@MrLevo520–总结：Bias(偏差)，Error(

2017-10-26 11:16:22 20975 3

原创 MIT算法导论公开课第八讲全域哈希和完全哈希

全域哈希对于任意哈希函数而言，都存在一个不好的健集，使得所有的健都会哈希到同一个槽里去，那么如何解决这种情况呢？如何防止对某个键集永远有较差的表现？如何防止竞争对手使用这个键集来降低你的性能表现？一个词解决这个问题 —— 随机！全域哈希的方法就是随机选择一个哈希函数H（当然不是每次操作都选择一个哈希函数，而是构建一个哈希表的时候随机选一个，选定之后这个

2017-10-25 15:04:29 1953

原创 MIT算法导论公开课第七讲哈希表

哈希表又称散列表，其定义是根据一个哈希函数将集合S中的关键字映射到一个表中，这个表就称为哈希表，而这种方法就称为Hashing。从作用上来讲，构建哈希表的目的是把搜索的时间复杂度降低到O（1），考虑到一个长度为n的序列，如果依次去比较进行搜索的话，时间复杂度是θ（n），或者对其先进行排序然后再搜索会更快一些，但这两种方法都不是最快的方法。一、直接寻址表直接寻址表

2017-10-22 20:06:48 623

转载提高深度学习和机器学习性能的方法

20个你可以用来避免过拟合和得到更好的泛化的技巧

2017-10-21 11:30:42 1586 1

转载 Gradient Boosting Machine(GBM）调参方法详解

<div class="markdown_views"><p>原文地址：<a href="https://www.analyticsvidhya.com/blog/2016/02/complete-guide-parameter-tuning-gradient-boosting-gbm-python/" target="_blank">Complete Guide to Parameter Tuni

2017-10-21 10:42:48 7387

原创可汗学院金融学（二）

卖空卖空是指股票市场的一种行为。通过对当前的情况判断，一些精明的投资者或许会预感到股票价格将会下跌，这时，他们可能会从股票经纪人那里借一些股票。经纪人那里有许多客户的股票，客户和其经纪人都可以买卖这些股票。我从股票经纪人那里借一些股票，我会付给他利息，并且过一段时间就会还给他。这样我就借得了一些股票，我会将这些股票卖出去，这是这些股票每股或许价值100元，过一段时间后，股票价格开始下跌

2017-10-17 10:54:08 732

原创机器学习性能指标精确率、召回率、F1值、ROC、PRC与AUC

精确率、召回率、F1、AUC和ROC曲线都是评价模型好坏的指标,那么它们之间有什么不同，又有什么联系呢。下面让我们分别来看一下这几个指标分别是什么意思。针对一个二分类问题，将实例分成正类(postive)或者负类(negative)。但是实际中分类时，会出现四种情况.(1)若一个实例是正类并且被预测为正类，即为真正类(True Postive TP)(2)若一个实例是正类，但是被预

2017-10-15 16:47:21 11703 1

转载 kaggle比赛模型融合指南

介绍集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中，我会分享我在Kaggle比赛中的集成方法。在第一部分中，我们会讨论从提交文件中建立集成。主要包括：投票集成平均排名平均第二部分我们会讨论通过 generalization/blending等方法来创建集成。我会在后续回答为什么集成能够减少泛化误差。最后我会展示不同的集成方法，包括它们的结果以及代码以供你自己去尝

2017-10-13 16:29:32 11197

转载 DataFrame数据合并

merge 通过键拼接列pandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来语法如下[python] view plain copy print?merge(left, right, how=‘inner’, on=None, left_on=None, right_on=N

2017-10-12 16:33:49 5634

原创机器学习中的正则化技术L0,L1与L2范数

使用机器学习算法过程中，如果太过于追求准确率，就可能会造成过拟合。使用正则化技术可以在一定程度上防止过拟合。首先来回顾一下过拟合的概念。过拟合简单来说就是对于当前的训练数据拟合程度过高以至于模型失去了泛化能力。下面是一个房屋预测的例子：左侧的图是欠拟合，即对于当前数据集的拟合程度不够，欠拟合的特征是在训练集和测试集上的准确率都不好。右边的为过拟合状态，过拟合对于当前数据拟合得太好了

2017-10-05 15:32:16 15668 4

原创神经网络训练细节（二）

一、神经网络优化 SGD的问题随机梯度下降可能是在机器学习和深度学习中应用最为广泛的优化算法，但其有时学习会非常慢，特别是当梯度在水平和竖直方向上不均衡时，如下图所示：在竖直方向上，梯度下降很快，而在水平方向上，梯度下降比较慢。这样，当采用随机梯度下降时，它会在竖直方向上下降的快而在水平方向上收敛的慢，这样优化路线就会如上如所示在窄轴上来回震荡。动量因为随机梯度下降算法所存

2017-10-03 09:29:08 2695

原创神经网络训练细节（一）

一、激励函数的选取常见的激励层函数有sigmoid、tanh、Relu、Leaky Relu、ELU、Maxoutsigmoid函数如下所示：sigmoid函数是早期用的比较多的激励函数，但现在已经不常用了。主要是当输入特别大或者特别小时，sigmoid函数的偏导数趋于0，这样在使用反向传播算法时将会出现问题,并且sigmoid函数不是关于原点对称的，这样在进行反向传

2017-10-02 09:05:05 4208

原创可汗学院金融学（一）

利息计算公式p：本金，y：年数，r：利率单利计算公式：p(1+r*y)复利计算公式：p(1+r)^y现值（Present Value）:假设我现在可以给你100美元或者1年后给你110美元，你应该如何选择（假设是在没有风险的情况下，即如果你选择了一年后给你110美元，无论如何我都会给你，同时假定银行利息为5%）？这样即比较一年后的110美元和现在的100美元哪个更值钱。

2017-10-01 21:27:54 1753

一路前行

转载 XGBoost python调参示例