crb_day_day_up-CSDN博客

原创理解：L1正则先验分布是Laplace分布，L2正则先验分布是Gaussian分布——复习篇

L1、L2正则化来源推导L1L2的推导可以从两个角度：带约束条件的优化求解（拉格朗日乘子法）贝叶斯学派的：最大后验概率1.1 基于约束条件的最优化对于模型权重系数w的求解释通过最小化目标函数实现的，也就是求解：首先，模型的复杂度可以用VC来衡量。通常情况下，模型VC维与系数w的个数成线性关系：即：w数量越多，VC越大，模型越复杂为了限制模型的复杂度，我们要降低V...

2018-08-28 14:50:03 21098 8

原创 AUC评价指标的理解以及其为何能衡量二分类模型优劣——复习篇

AUC是衡量二分类模型优劣的一种评价指标，其他评价指标有精确度、准确率、召回率，而AUC比这三者更为常用。因为一般在分类模型中，预测结果都是以概率的形式表现，如果要计算准确率，通常都会手动设置一个阈值来将对应的概率转化成类别，这个阈值也就很大程度上影响了模型准确率的计算。AUC能很好描述模型整体性能的高低。从一定程度上讲,它可以描述预测结果中正例排在负例前面的概率。AUC（Area under...

2018-08-26 11:15:12 5115 1

原创 O2O优惠券使用预测

这两天把O2O优惠券使用预测的项目拿出来又搞了搞，排名还有提高的空间，纪念一下当初刚学的时候（等找工作空闲了，我再把解题思路分享下，先留个坑）：...

2018-08-24 23:58:59 1984

原创 PCA理解——复习篇

复习到特征工程，联想到了PCA，就小结一下：1、核心：PCA的思想是基于最大方差理论（某一维方差越大代表了包含了原始数据的绝大部分信息，这也可以从信息论的角度理解，信息熵），将n维特征映射到k维上（k<n），这k维是全新的正交特征。注意：这k维特征称为主成分，是重新构造出来的k维特征，而不是简单地从n维特征中去除其余n-k维特征。2、数学上的推导：补充： ...

2018-08-22 00:13:29 340

原创 SVM中对偶问题的理解——复习篇

近段复习到SVM，对SVM中的对偶问题又进行了进一步的理解：对于为什么要引入对偶问题：这涉及到凸优化的知识：首先是我们有不等式约束方程，这就需要我们写成min max的形式来得到最优解。而这种写成这种形式对x不能求导，所以我们需要转换成max min的形式，这时候，x就在里面了，这样就能对x求导了。而为了满足这种对偶变换成立，就需要满足KKT条件（KKT条件是原问题与对偶问题等价的必要条件...

2018-08-19 20:18:37 2091

原创 XGBoost原理推导与实践——复习篇

再读XGBoost论文原文，发现文中原理推导最关键的一步在于：附上XGBoost论文原文，个人百度云下载链接：链接：https://pan.baidu.com/s/1gFTE4ynBRvgLP-qFEHyE9g 密码：vt1aGBDT论文原文，个人百度云下载链接：链接：https://pan.baidu.com/s/1FOSqLJ9oaY75WYFgYYC9DA 密码：jsoc...

2018-08-18 17:24:49 363

原创 GBDT和XGBoost参数调参的思考

思考一：xgboost/gbdt在调参时树的深度很少（如6）就能达到很高的精度，但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高。随机森林(random forest)和GBDT都是属于集成学习（ensemble learning)的范畴。集成学习下有两个重要的策略Bagging和Boosting。 Bagging算法是这样做的：每...

2018-08-18 10:21:40 534

原创神经网络中的激活函数sigmoid、 tanh 、RELU

首先解释为什么要做：再解释怎么做：从数学上来看，Sigmoid函数对中央区的信号增益较大，对两侧区的信号增益小，在信号的特征空间映射上，有很好的效果。在具体应用中，tanh函数相比于Sigmoid函数往往更具有优越性，这主要是因为Sigmoid函数在输入处于[-1,1]之间时，函数值变化敏感，一旦接近或者超出区间就失去敏感性，处于饱和状态， (3) R...

2018-08-16 21:43:00 26978

原创理解泰勒级数

即：一阶泰勒展开：另外：

2018-08-16 21:36:09 1071

原创基于矩阵分解的电影推荐算法（使用Tensorflow实现）

#!/usr/bin/env python# -*- coding:utf-8 -*-# 文中部分参考了：# https://blog.csdn.net/u012845311/article/details/77183491# 改进：要划分训练集和测试集，并在进行模型评估阶段，可参考之前做过的协同过滤推荐系统中的，# 通过prediction[ground_truth.nonzero(...

2018-07-23 21:03:40 9150 22

原创基于物品/用户的协同过滤算法（使用Scikit-learn实现）

#!/usr/bin/env python# -*- coding: utf-8 -*-# 使用MovieLens数据集，它是在实现和测试推荐引擎时所使用的最常见的数据集之一。它包含来自于943个用户# 以及精选的1682部电影的100K个电影打分。# 文中部分参考了：https://blog.csdn.net/u012845311/article/details/77175613i...

2018-07-23 21:02:02 7754 5

转载转载：深度学习RNN实现股票预测实战

转载自：https://blog.csdn.net/buptgshengod/article/details/78880941背景知识最近再看一些量化交易相关的材料，偶然在网上看到了一个关于用RNN实现股票预测的文章，出于好奇心把文章中介绍的代码在本地跑了一遍，发现可以work。于是就花了两个晚上的时间学习了下代码，顺便把核心的内容翻译成中文分享给大家。首先讲讲对于股票预测的理解...

2018-07-17 21:43:47 2827