机器学习
u010867294
这个作者很懒,什么都没留下…
展开
-
特征工程-时间类特征
1 one_hot2 用 sin(hour*2*pi/24) cos(hour*2*pi/24) 来表示 见http://blog.davidkaleko.com/feature-engineering-cyclical-features.html原创 2019-11-28 18:41:12 · 441 阅读 · 0 评论 -
机器学习 偏差和方差
机器学习算法,其泛化误差可以分解为两部分,偏差(bias)和方差(variance)。偏差指的是算法的期望预测与真实预测之间的偏差程度,反应了模型本身的拟合能力;方差度量了同等大小的训练集的变动导致学习性能的变化,刻画了数据扰动所导致的影响。如下图所示,当模型越复杂时,拟合的程度就越高,模型的训练偏差就越小。但此时如果换一组数据可能模型的变化就会很大,即模型的方差很大。所以模型过于复杂的时候会导致...原创 2018-02-08 11:32:36 · 441 阅读 · 0 评论 -
GBDT中残差和梯度的关系
采用Square loss为损失函数时,负梯度和残差相等。不过,当我们采用Absolute loss/Huber loss等其它损失函数时,负梯度只是残差的近似。转自 http://aandds.com/blog/ensemble-gbdt.html...原创 2018-02-08 22:10:47 · 2000 阅读 · 0 评论 -
机器学习算法GBDT的面试要点总结-上篇
转自 http://www.cnblogs.com/ModifyRong/p/7744987.html1.简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,转载 2018-01-23 13:29:39 · 2018 阅读 · 0 评论 -
逻辑回归的常见面试点总结
转自 http://www.cnblogs.com/ModifyRong/p/7739955.html1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时转载 2018-01-23 13:28:12 · 13575 阅读 · 3 评论 -
决策树和lr关于线性和非线性的区别
# coding:utf8import randomimport numpy as npfrom sklearn.linear_model import LogisticRegressionfrom sklearn import treeX = []Y = []for i in range(10000): a = random.uniform(-1, 1) b =原创 2018-01-14 21:03:16 · 3783 阅读 · 0 评论 -
auc计算 代码
# coding=utf-8# auc值的大小可以理解为: 随机抽一个正样本和一个负样本,正样本预测值比负样本大的概率# 根据这个定义,我们可以自己实现计算aucimport randomimport timedef timeit(func): """ 装饰器,计算函数执行时间 """ def wrapper(*args, **kwargs):转载 2017-12-01 19:53:33 · 5393 阅读 · 0 评论 -
深度学习笔记
零基础入门深度学习系列https://www.zybuluo.com/hanbingtao/note/433855原创 2017-05-22 19:13:04 · 257 阅读 · 0 评论 -
GBDT算法原理深入解析
转自 http://blog.csdn.net/yangxudong/article/details/53872141#加法模型additive-modelGBDT算法原理深入解析标签(空格分隔): 机器学习 集成学习 GBM GBDT XGBoost梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的机器学习技术1,属于Boostin转载 2017-04-17 20:47:58 · 2180 阅读 · 0 评论 -
梯度下降法的三种形式BGD、SGD以及MBGD
阅读目录1. 批量梯度下降法BGD2. 随机梯度下降法SGD3. 小批量梯度下降法MBGD4. 总结 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。 下面我们以线性回归算法来对三种梯度下降法进行比较。 一般线性回归函数的假设函数为:h转载 2017-03-21 19:35:26 · 1124 阅读 · 0 评论 -
Weka -- 数据格式基本介绍
Weka是什么不多介绍,直接切入正题,简单介绍Weka的数据格式。Weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,是一种ASCII文本文件。如下例,weka自带的weather.arff文件。% ARFF file for the weather data with some numric features % @rel转载 2015-11-08 13:21:12 · 994 阅读 · 0 评论 -
为什么一些机器学习模型需要对数据进行归一化?
为什么一些机器学习模型需要对数据进行归一化?本文转自 http://www.cnblogs.com/LBSer/p/4440590.html 机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很转载 2016-04-09 22:44:37 · 424 阅读 · 0 评论 -
bootstrap, boosting, bagging 几种方法的联系
这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的介绍boosting算法的资源:(1)视频讲义,介绍boosting算法,主要介绍AdaBoosing ht转载 2016-04-09 16:36:17 · 458 阅读 · 0 评论 -
机器学习过度拟合问题一些原因
这几天在训练一个文本处理的机器学习算法,使用支持向量机和决策树算法在训练集上的数据的准确度特别高,但是在测试集上的数据的准确度确很低,于是陷入过度拟合的烦恼中,查找资料发现一些多度拟合的看法。仔细想想确实在训练时存在一些问题,第一:输入变量多,由于缺乏对问题的根本认识,使用了很多无关变量,这个问题打算从其它途径先认识变量和问题的关系;第二:数据的噪声可能是比较大,没有考虑到关键的特征和信息。下面的转载 2016-03-25 12:46:00 · 936 阅读 · 0 评论 -
名词解析之泛化误差
摘要:以前在机器学习中一直使用经验风险来逼近真实风险,但是事实上大多数情况经验风险并不能够准确逼近真实风险。后来业界就提出了泛化误差的概念(generalization error),在机器学习中泛化误差是用来衡量一个学习机器推广未知数据的能力,即根据从样本数据中学习到的规则能够应用到新数据的能力。常用的计算方法是:用在训练集上的误差平均值-在测试集上的误差平均值。一:经验风险机器转载 2015-10-29 14:33:12 · 5582 阅读 · 0 评论