自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Nicole的博客

记录机器学习中遇到的问题

  • 博客(18)
  • 资源 (12)
  • 收藏
  • 关注

转载 九、回归——XGBoost算法

 一、Xgboost模型参数         Xgboost模型有3种类型的参数:通用参数、辅助参数和任务参数。通用参数确定上升过程中上升模型类型,常用树或线性模型;辅助参数取决于所选的上升模型;任务参数定义学习任务和相应的学习目标。Xgboost模型中,常用参数说明如下:(1)Xgboost:设置需要使用的上升模型。可选gbtree(树)或gblinear(线性函数),默认为gbt...

2018-06-21 10:40:36 14912

转载 七、基于机器学习方法对销售预测的研究

基于机器学习方法对销售预测的研究在开始今天的分享之前,我首先跟大家简单的聊一下,刚刚过去的双十一,大家可能更关心的是双十一的折扣,什么商品打了什么折扣。但是对于天猫而言,他们可能更关心的是双十一当天的销售额是多少,因为知道销售额,他就能提前做一个准备,做到未雨绸缪。作者:唐新春来源:大数据杂谈|2016-12-28 15:19 收藏  分享 很高兴“InfoQ”团队和“...

2018-06-19 16:59:39 16108

转载 六、回归——套索回归 (Lasso Regression)的基本应用

一、使用场合与岭回归类似,套索 (Least Absolute Shrinkage and Selection Operator) 也会对回归系数的绝对值添加一个罚值。此外,它能降低偏差并提高线性回归模型的精度。看看下面的等式:套索回归与岭回归有一点不同,它在惩罚部分使用的是绝对值,而不是平方值。这导致惩罚(即用以约束估计的绝对值之和)值使一些参数估计结果等于零。使用的惩罚值越大,估计...

2018-06-15 17:44:17 39724

原创 七、回归——回归预测的评价指标(附python代码)

目录一、常用的评价指标1、SSE(误差平方和)2、R-square(决定系数)3、Adjusted R-Square (校正决定系数)二、python中的sklearn.metrics(1)explained_variance_score(解释方差分)(2)Mean absolute error(平均绝对误差)(3)Mean squared error(均方误...

2018-06-15 14:36:47 36658 5

原创 五、线性回归——岭回归Ridge Regression

一、岭回归引进的原因当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。上面,我们看到了线性回归等式。还记得吗?它可以表示为:y=a+ b*x这个等式也有一个误差项。完整的等式是:y=a+b*...

2018-06-15 10:38:13 7961

原创 四、回归——LinearRegression

一、官方文档class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)1.参数:Ordinary least squares Linear Regression.(普通最小二乘线性回归)Parameters: fit_in...

2018-06-14 15:29:13 1062

原创 四、非平稳序列的确定性分析

一、确定性因素分解1、确定性因素     由确定性因素导致的非平稳通常会显示出明显的规律性,所有的序列波动都可以归纳为受到以下四大类因素的综合影响:(1)长期趋势(trend)。序列呈现出明显的长期递增或递减的变化趋势。(2)循环波动(circle)。序列呈现出从低到高再从高到低的反复循环波动。循环的周期可以变化,不一定是固定的。(3)季节性变化(season)。序列呈现出和季...

2018-06-12 11:03:24 4014

原创 三、用python实现平稳时间序列的建模

一、平稳序列建模步骤    假如某个观察值序列通过序列预处理可以判定为平稳非白噪声序列,就可以利用ARMA模型对该序列进行建模。建模的基本步骤如下:(1)求出该观察值序列的样本自相关系数(ACF)和样本偏自相关系数(PACF)的值。(2)根据样本自相关系数和偏自相关系数的性质,选择适当的ARMA(p,q)模型进行拟合。(3)估计模型中位置参数的值。(4)检验模型的有效性。如果模...

2018-06-11 22:45:49 24409 10

原创 二、时间序列的预处理

一般情况下,拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。一、平稳性检验1、特征统计量(1)概率分布          数理统计的基础知识告诉我们分布函数或者密度函数能够完整地描述一个随机变量的统计特征。同样,一个堆积变量族{Xt} 的统计特征也完全由...

2018-06-11 11:28:29 24296 3

原创 一、时间序列分析的简介

一、时间序列的基本概念        按照时间的顺序把随机时间变化发展的过程记录下来就构成了一个时间序列,对时间序列进行观察、研究,寻找它的变化发展规律,预测它将来的走势,就是时间序列分析。        在统计研究中,常用按时间顺序排列的一组随机变量               X1  ,  X2  , ... ,Xt , ....来表识一个随机事件的随机序列,简记为{Xt , ...

2018-06-11 10:22:04 5594

原创 五、python 缺失值处理(Imputation)

一、缺失值的处理方法      由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。       使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会...

2018-06-08 19:48:59 21179

原创 四、数据标准化 Scikit-learn Preprocessing

一、标准化、去均值、方差缩放(variance scaling)1.原理介绍   通过将属性值按比例缩放,使之落入一个小的特定区间,如0.0~1.0,对属性规范化。有很多数据规范化的方法,这里我们将介绍三种:最小--最大规范化,z-score规范化,按小数定标规范化和最大绝对值缩放。下面简单介绍着几种规范化的原理:(1)最小--最大规范化             最小--最...

2018-06-08 16:23:59 986

原创 三、回归——logistic回归二分类的python实现

一、训练算法:使用梯度上升找到最佳参数1.使用Logistic回归梯度上升优化算法       每次更新回归系数都要遍历整个数据集,该算法在处理100左右各样本时还可以,但是如果有数十亿样本或者成千上万的特征,那么该算法就太过于复杂了。import osfrom numpy import *os.chdir("E:\python learning\Machine Learnin...

2018-06-08 15:43:05 14114 4

原创 二、回归——logistic regression实现多类别分类的实现

一、one-Versus-All,OVA方法     一对所有(one-Versus-All,OVA),给定m个类,训练m个二元分类器(将选取任意一类,再将其它所有类看成是一类,构建一个两类分类器)。分类器j使类j的元组为正类,其余为负类,进行训练。为了对未知元组X进行分类,分类器作为一个组合分类器投票。例如,如果分类器j预测X为正类,则类j得到一票。如果他测得X为正类,则类j得到一票。如果测...

2018-06-08 13:03:52 9814 1

原创 一、回归——sklearn.linear_model.LogisticRegression官方文档

1.logistic回归logistic回归可以用于概率预测、分类等。2.sklearn.linear_model.LogisticRegression函数参数LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_wei...

2018-06-07 19:47:14 3814

转载 pandas.cut与pandas.qcut使用方法与区别

pandas.cut:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)参数:x,类array对象,且必须为一维,待切割的原形式 bins, 整数、序列尺度、或间隔索引。如果bins是一个整数,它定义了x宽度范围内的等宽面元数量,但是在这种情况下,...

2018-06-05 11:08:14 3189

转载 三、Seaborn-05-Pairplot多变量图

#-*- coding:utf-8 -*-from __future__ import divisionimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsseaborn.pairplot(data, hue=None, hue_order=None, palette=None, vars=No...

2018-06-03 22:36:16 5248

转载 Numpy中Meshgrid函数介绍及2种应用场景

Meshgrid函数的基本用法在Numpy的官方文章里,meshgrid函数的英文描述也显得文绉绉的,理解起来有些难度。可以这么理解,meshgrid函数用两个坐标轴上的点在平面上画网格。用法:  [X,Y]=meshgrid(x,y)  [X,Y]=meshgrid(x)与[X,Y]=meshgrid(x,x)是等同的  [X,Y,Z]=meshgrid(x,y,z)生成三维数组,可用来计算三变...

2018-06-02 21:49:00 6500 1

随机森林原理、示例、应用

本资源主要简单介绍随机森林的原理,随机森林的应用特点,以及它的实例和在python上的实现。

2018-10-16

数理统计——基本概念及专题-李泽慧等译

《数理统计习题教程(上下)》为《数理统计——基本概念及专题》的配套习题解答。主要内容包括概率论中的一些课题、统计模型、估计方法、估计的比较——最优化理论、从估计到置信区间和假设检验、最优化检验与置信区间——似然比检验及有关方法,线性模型——回归和方差分析,离散数《数理统计习题教程(上下)》可供大专院校有关专业作为数理统计课程的配套教材和参考书。

2018-06-09

统计学_David Freedman

非常有名的统计学经典书籍,这本书读起来是比较轻松的,因为不需要太多的概率论基础,也没有很复杂的推导或公式。本书采用概率论的频率理论来讨论统计学,重视统计思想及引导如何应用统计学解决实际问题。书中所采用的例子和习题采用的数据绝大多数都是实际的数据(与国内教材的造的数据与例子形成鲜明对比,有点遗憾的数据几乎都是美国的)。除每章的复习题外,所有的习题都有答案。约95%的习题是简单的,做它们可以很好地复习教材内容;但另外5%的习题却只是貌似简单而已,思考它们将使我们受益。第四部分概率有概率论基础的人可以快速略过。

2018-06-09

R数据分析与案例详解

《R数据分析--方法与案例详解(双色)》是一本R 语言和数据分析的入门教材,循序渐进、深入浅出,每个知识点尽量从实际的应用案例出发,以问题为导向,在解决问题中学习统计方法、R 语言的基本使用以及编程技巧。

2018-06-09

R语言编程艺术

《R语言编程艺术》是R语言领域公认的经典著作,由著名计算机科学家兼统计学家撰写,Amazon五星级畅销书。它是一本面向R语言开发者的纯编程类书籍,不需要读者具备统计学基础,从编程角度而非统计学角度系统讲解了R语言的数据结构、编程结构、语法、TCP/IP网络编程、并行计算、代码调试、程序性能优化、编程技巧以及R语言与其他语言的接口等所有与R编程相关的知识,几乎面面俱到。本书的实用性也非常强,44个精选的扩展案例,充分展示了R语言在数据处理和统计分析方面的强大能力。 全书一共16章:第1章介绍了学习R语言需要掌握的预备知识以及它的一些重要数据结构;第2~6章详细讲解了R语言的主要数据结构,包括向量、矩阵、数组、列表、数据框和因子;第7~13章全面讲解了R语言的语法,包括编程结构、面向对象特性、数学运算与模拟、输入与输出、字符串处理、绘图,以及R语言的调试方法。第14~16章讲解了R语言编程的高级内容,如执行速度和性能的提升、R语言与C/C++或Python的混合编程,以及R语言的并行计算等。

2018-06-09

pandas模块的常用

压缩包中主要有5个文档,主要介绍pandas的数据结构、结冰功能、pandas的汇总和统计描述、处理缺失值和pandas的层次化索引。有兴趣的小伙伴可以下载!!!!

2018-06-08

logistic回归二分类的python实现博文的数据

logistic回归二分类的python实现博文的源数据,想要对着代码来操作一遍的伙伴们可以在这里下载!

2018-06-08

《Machine Learning A Probabilistic Perspective》

机器学习非常推荐的一本书,能够兼顾深度和广度、并且比较适合拥有计算机科学或其它相关领域基础的初学者的教材

2018-06-08

利用python进行数据分析

用python做数据分析非常推荐的一本书!!书中讲解了pandas、numpy、matplotlib包的使用,非常适合初学者使用!!

2018-06-08

logistic regression实现多类别分类的实现数据集

logistic regression实现多类别分类的实现数据集的源数据

2018-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除