![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 70
就从今天开始_ll
这个作者很懒,什么都没留下…
展开
-
GBDT:梯度提升决策树
转载自:http://www.jianshu.com/p/005a4e6ac775 综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。转载 2017-09-25 15:25:32 · 259 阅读 · 0 评论 -
关于AUC
预测值为正例,记为P(Positive)预测值为反例,记为N(Negative)预测值与真实值相同,记为T(True)预测值与真实值相反,记为F(False)样本中的真实正例类别总数即TP+FN。TPR即True Positive Rate,TPR = TP/(TP+FN)。 同理,样本中的真实反例类别总数为FP+TN。FPR即False Positive Rate,FPR=FP/(TN+FP)。...原创 2018-03-02 10:27:01 · 689 阅读 · 0 评论 -
LightGBM与XGBoost原理
LightGBM和XGBoost都是GBDT的高效实现,所以先简单介绍下GBDT。1. Gradient Boosting Decision Tree提升树的学习优化过程中,损失函数平方损失和指数损失时候,每一步优化相对简单,但对于一般损失函数优化的问题,Freidman提出了Gradient Boosting算法,其利用了损失函数的负梯度在当前模型的值 −[∂L(y,f(xi))∂f(xi)]f...转载 2018-03-02 18:11:54 · 7139 阅读 · 0 评论 -
Holt-Winters模型原理分析及代码实现(python)
引言 原文:http://blog.csdn.net/u010665216/article/details/78051192最近实验室老师让我去预测景区内代步车辆的投放量,于是乎,本着“一心一意地输出年富力强的劳动力”这份初心,我就屁颠屁颠地去找资料,然后发现了Holt-Winters模型 , 感觉这个模型可以有,于是就去研究一番,并总结成这篇博客了。原理分析移动平均(The simple mov...转载 2018-03-02 18:13:03 · 1140 阅读 · 0 评论 -
Python XGBoost算法代码实现和筛选特征应用
原文链接:https://zhuanlan.zhihu.com/p/33931960?utm_medium=social&utm_source=wechat_sessionXGBoost算法在机器学习中是一个比较重要的算法模块,过去我们经常处理连续特征用GBDT,而现在更多的是用XGBoost,特别是在数据预处理和特征工程上,XGBoost有很多明显的优势。一、算法原理之前一直有听说GBM...转载 2018-03-02 18:14:21 · 1342 阅读 · 0 评论 -
GBDT和Xgboost对比
一.GBDT有哪些参数,如何确定树的深度,学习率怎样确定。 答:本题答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中,GradientBoostingClassifier为GBDT的分类类,GradientBoostingRegressor为GBDT的回归类,两者的参数类型相同,我们把参数分为两类,第一类是Boosting框架的重...转载 2018-02-24 17:05:00 · 1909 阅读 · 1 评论 -
Python XGBoost算法代码实现和筛选特征应用
XGBoost算法在机器学习中是一个比较重要的算法模块,过去我们经常处理连续特征用GBDT,而现在更多的是用XGBoost,特别是在数据预处理和特征工程上,XGBoost有很多明显的优势。一、算法原理之前一直有听说GBM,GBDT(Gradient Boost Decision Tree)渐进梯度决策树GBRT(Gradient Boost RegressionTree)渐进梯度回归树是GBDT的...转载 2018-02-24 18:02:51 · 5432 阅读 · 0 评论 -
RANSAC随机采样一致性算法
RANSAC随机采样一致性算法RANSAC算法的输入是一组观测数据(往往含有较大的噪声或无效点),它是一种重采样技术(resampling technique),通过估计模型参数所需的最小的样本点数,来得到备选模型集合,然后在不断的对集合进行扩充,其算法步骤为:随机的选择估计模型参数所需的最少的样本点。估计出模型的参数。找出在误差 ϵϵ 内,有多少点适合当前这个模型,并将这些点标记为模型内点如果内...转载 2018-04-28 10:22:16 · 2310 阅读 · 0 评论 -
为何工业界多用离散逻辑回归
在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:离散特征的增加和减少都很容易,易于模型的快速迭代;稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;逻辑...转载 2018-02-22 17:12:05 · 368 阅读 · 0 评论 -
xgboost论文总结1
介绍 原文链接:http://d0evi1.com/xgboost/还可参考https://zxth93.github.io/2017/09/29/XGBoost%E7%AE%97%E6%B3%95%E5%8E%9F%E7%90%86/index.html在解析XGBoost的源码之前,我们先理解下陈天奇在paper《XGBoost: A Scalable Tree Boosting System...转载 2018-03-01 12:25:48 · 1562 阅读 · 1 评论 -
预测算法——指数平滑法
目录•1.指数平滑定义及公式•2.一次指数平滑•3二次指数平滑•4.三次指数平滑•5指数平滑系数α的确定1、指数平滑的定义及公式 产生背景:指数平滑由布朗提出、他认为时间序列的态势具有稳定性或规则性,所以时间序列可被合理地顺势推延;他认为最近的过去态势,在某种程度上会持续的未来,所以将较大的权数放在最近的资料。 基本原理:指数平滑法是移动平均法中的一种,其特点在于给过去的观...转载 2018-03-01 09:09:36 · 10149 阅读 · 0 评论 -
在R中使用XGBoost算法
介绍你知道 XGBoost 算法是一种现在在数据科学竞赛的获胜方案很流行的算法吗?那么,他比传统的随机森林和神经网络算法强在哪里呢?广义上来说,它在效率,准确性,可行性都更有优势(接下来我们将会详细讨论)。在最近的几年中,模型预测已经变得越来越快速和准确了。我记得我曾花费数个小时在为某个模型构建特征工程上,模型却仅仅提升了几个百分点。现在,这些大量困难的问题都被更好的算法所解决。转载 2017-09-25 15:30:09 · 1111 阅读 · 0 评论 -
xgboost: 速度快效果好的 boosting 模型
xgboost: 速度快效果好的 boosting 模型何通关键词:boosting; Gradient Boosting Machine; xgboost; 数据建模预测本文作者:何通,SupStat Inc(总部在纽约,中国分部为北京数博思达信息科技有限公司)数据科学家,加拿大 Simon Fraser University 计算机学院研究生,研究兴趣为数据挖掘和生物信息学转载 2017-09-25 15:40:13 · 827 阅读 · 0 评论 -
pandas使用方法
一、生成数据表 1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd122、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name转载 2018-01-30 22:36:50 · 414 阅读 · 0 评论 -
GBDT和Xgboost模型对比总结
一.GBDT有哪些参数,如何确定树的深度,学习率怎样确定。 答:本题答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中,GradientBoostingClassifier为GBDT的分类类,GradientBoostingRegressor为GBDT的回归类,两者的参数类型相同,我们把参数分为两类,第一类是Boosting框架的重...转载 2018-02-09 10:24:39 · 657 阅读 · 0 评论 -
R语言-data.table包使用(方便自己使用参考)
R语言-data.table包它的fread函数读取1G的CSV文件才用了20s左右。其他对data.frame的操作,也快了N倍特点data.table(DT)的操作语句类似于SQL,DT[i, j, by]中的i, j, by 对应着SQL语句的 i=where, j=select, by=group by。所以DT中的i, j并不是只是像data.frame只代表着行列,它更加的灵活多变。符...转载 2018-02-11 10:14:55 · 1198 阅读 · 0 评论 -
通俗理解卡尔曼滤波及其算法实现(实例解析)
1.简介(Brief Introduction)在学习卡尔曼滤波器之前,首先看看为什么叫“卡尔曼”。跟其他著名的理论(例如傅立叶变换,泰勒级数等等)一样,卡尔曼也是一个人的名字,而跟他们不同的是,他是个现代人!卡尔曼全名Rudolf Emil Kalman,匈牙利数学家,1930年出生于匈牙利首都布达佩斯。1953,1954年于麻省理工学院分别获得电机工程学士及硕士学位。1957年于哥伦比亚大学获...转载 2018-02-28 17:26:06 · 749 阅读 · 1 评论 -
时间序列挖掘-三次指数平滑法(Holt-Winters)
一、为何这个方法被称为“指数”平滑法?要找出答案,展开它的递推关系式即可知道: 从这里可以看出,在指数平滑法中,所有先前的观测值都对当前平滑值产生了影响,但它们所起的作用随着参数 的幂的增大而逐渐减小。那些相对较早的观测值所起的作用相对较小,这也就是指数变动形态所表现出来的特性。从某种程度上来说,指数平滑法就像是拥有无限记 忆且权值呈指数级递减的移动平均法。二、三次指数平滑法 三次...转载 2018-02-28 18:01:31 · 8452 阅读 · 0 评论 -
prophet:时间序列预测原理
prophet:时间序列预测原理介绍prophet是Facebook 开源一款基于 Python 和 R 语言的数据预测工具即“先知”。Facebook 表示,Prophet 相比现有预测工具更加人性化,并且难得地提供 Python 和R的支持。它生成的预测结果足以和专业数据分析师媲美。时间序列模型基本模型 y(t)=g(t)+s(s)+h(t)+ϵt这里,模型将时间序列分成3个部分的叠加,其中g...转载 2018-02-28 18:05:28 · 2153 阅读 · 0 评论 -
时间序列分析——ARIMA模型
指数平滑法对时间序列上连续的值之间的相关性没有要求。但是,如果你想使用指数平滑法计算出预测区间, 那么预测误差必须是不相关的, 且必须是服从零均值、 方差不变的正态分布。即使指数平滑法对时间序列连续数值之间相关性没有要求,在某种情况下, 我们可以通过考虑数据之间的相关性来创建更好的预测模型。 自回归移动平均模型( ARIMA)是最常用的时间序列预测模型。注意:时间序列模型通常适用于做短期预测,即...转载 2018-02-28 18:07:10 · 7750 阅读 · 0 评论 -
LSTM算法原理简介及Tutorial
原文地址:http://blog.csdn.net/xuanyuansen/article/details/61913886LSTM算法原理简介及Tutorial一、背景LSTM(Long Short-Term Memory)算法作为深度学习方法的一种,在介绍LSTM算法之前,有必要介绍一下深度学习(Deep Learning)的一些基本背景。目前在机器学习领域,最大的热点毫无疑问是深度学习,从谷...转载 2018-03-08 20:53:44 · 899 阅读 · 0 评论