- 博客(12)
- 资源 (10)
- 收藏
- 关注
原创 理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇
L1、L2正则化来源推导L1L2的推导可以从两个角度:带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率1.1 基于约束条件的最优化对于模型权重系数w的求解释通过最小化目标函数实现的,也就是求解:首先,模型的复杂度可以用VC来衡量。通常情况下,模型VC维与系数w的个数成线性关系:即:w数量越多,VC越大,模型越复杂为了限制模型的复杂度,我们要降低V...
2018-08-28 14:50:03 21098 8
原创 AUC评价指标的理解以及其为何能衡量二分类模型优劣——复习篇
AUC是衡量二分类模型优劣的一种评价指标,其他评价指标有精确度、准确率、召回率,而AUC比这三者更为常用。因为一般在分类模型中,预测结果都是以概率的形式表现,如果要计算准确率,通常都会手动设置一个阈值来将对应的概率转化成类别,这个阈值也就很大程度上影响了模型准确率的计算。AUC能很好描述模型整体性能的高低。从一定程度上讲,它可以描述预测结果中正例排在负例前面的概率。AUC(Area under...
2018-08-26 11:15:12 5115 1
原创 O2O优惠券使用预测
这两天把O2O优惠券使用预测的项目拿出来又搞了搞,排名还有提高的空间,纪念一下当初刚学的时候(等找工作空闲了,我再把解题思路分享下,先留个坑):...
2018-08-24 23:58:59 1984
原创 PCA理解——复习篇
复习到特征工程,联想到了PCA,就小结一下:1、核心:PCA的思想是基于最大方差理论(某一维方差越大代表了包含了原始数据的绝大部分信息,这也可以从信息论的角度理解,信息熵),将n维特征映射到k维上(k<n),这k维是全新的正交特征。注意:这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。2、数学上的推导:补充: ...
2018-08-22 00:13:29 340
原创 SVM中对偶问题的理解——复习篇
近段复习到SVM,对SVM中的对偶问题又进行了进一步的理解:对于为什么要引入对偶问题:这涉及到凸优化的知识:首先是我们有不等式约束方程,这就需要我们写成min max的形式来得到最优解。而这种写成这种形式对x不能求导,所以我们需要转换成max min的形式,这时候,x就在里面了,这样就能对x求导了。而为了满足这种对偶变换成立,就需要满足KKT条件(KKT条件是原问题与对偶问题等价的必要条件...
2018-08-19 20:18:37 2091
原创 XGBoost原理推导与实践——复习篇
再读XGBoost论文原文,发现文中原理推导最关键的一步在于:附上XGBoost论文原文,个人百度云下载链接:链接:https://pan.baidu.com/s/1gFTE4ynBRvgLP-qFEHyE9g 密码:vt1aGBDT论文原文,个人百度云下载链接:链接:https://pan.baidu.com/s/1FOSqLJ9oaY75WYFgYYC9DA 密码:jsoc...
2018-08-18 17:24:49 363
原创 GBDT和XGBoost参数调参的思考
思考一:xgboost/gbdt在调参时树的深度很少(如6)就能达到很高的精度,但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高。 随机森林(random forest)和GBDT都是属于集成学习(ensemble learning)的范畴。集成学习下有两个重要的策略Bagging和Boosting。 Bagging算法是这样做的:每...
2018-08-18 10:21:40 534
原创 神经网络中的激活函数sigmoid、 tanh 、RELU
首先解释为什么要做:再解释怎么做:从数学上来看,Sigmoid函数对中央区的信号增益较大,对两侧区的信号增益小,在信号的特征空间映射上,有很好的效果。 在具体应用中,tanh函数相比于Sigmoid函数往往更具有优越性,这主要是因为Sigmoid函数在输入处于[-1,1]之间时,函数值变化敏感,一旦接近或者超出区间就失去敏感性,处于饱和状态, (3) R...
2018-08-16 21:43:00 26978
原创 基于矩阵分解的电影推荐算法(使用Tensorflow实现)
#!/usr/bin/env python# -*- coding:utf-8 -*-# 文中部分参考了:# https://blog.csdn.net/u012845311/article/details/77183491# 改进:要划分训练集和测试集,并在进行模型评估阶段,可参考之前做过的协同过滤推荐系统中的,# 通过prediction[ground_truth.nonzero(...
2018-07-23 21:03:40 9150 22
原创 基于物品/用户的协同过滤算法(使用Scikit-learn实现)
#!/usr/bin/env python# -*- coding: utf-8 -*-# 使用MovieLens数据集,它是在实现和测试推荐引擎时所使用的最常见的数据集之一。它包含来自于943个用户# 以及精选的1682部电影的100K个电影打分。# 文中部分参考了:https://blog.csdn.net/u012845311/article/details/77175613i...
2018-07-23 21:02:02 7754 5
转载 转载:深度学习RNN实现股票预测实战
转载自:https://blog.csdn.net/buptgshengod/article/details/78880941背景知识最近再看一些量化交易相关的材料,偶然在网上看到了一个关于用RNN实现股票预测的文章,出于好奇心把文章中介绍的代码在本地跑了一遍,发现可以work。于是就花了两个晚上的时间学习了下代码,顺便把核心的内容翻译成中文分享给大家。 首先讲讲对于股票预测的理解...
2018-07-17 21:43:47 2827
卡尔曼滤波跟踪
2019-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人