自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 MADlib——基于SQL的数据挖掘解决方案(20)——时间序列分析之ARIMA

一、时间序列分析简介1. 时间序列的定义        所谓时间序列就是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周、月等。这一组数据可以表示各种各样的含义,如经济领域中每年的产值、国民收入、商品在市场的销量、股票数据的变化情况等;社会领域中某一地区的人口数、医院患者人数、铁路客流量等,自然领域的太阳黑子数、月降水量、河流流量等,这些数据都形成了一个时间序列。人...

2018-02-11 15:36:26 3362

翻译 MADlib——基于SQL的数据挖掘解决方案(19)——回归之聚类方差

        Clustered Variance模块调整聚类的标准误。例如,将一个数据集合复制100次,不应该增加参数估计的精度,但是在符合独立同分布假设(Independent Identically Distributed,IID)下执行这个过程实际上会提高精度。另一个例子是在教育经济学的研究中,有理由期望同一个班里孩子的误差项不是独立的。聚类标准误可以解决这个问题。         MA...

2018-02-08 13:45:39 1240

翻译 MADlib——基于SQL的数据挖掘解决方案(18)——回归之稳健方差

Robust Variance模块中的函数用于计算线性回归、逻辑回归、多类逻辑回归和Cox比例风险回归的稳健方差(Huber-White估计)。它们可用于计算具有潜在噪声异常值的数据集中数据的差异。此处实现的Huber-White与R模块“sandwich”中的“HC0”三明治操作完全相同。        线性、逻辑和多类逻辑回归的稳健方差接口是相似的。每种回归类型都有自己的训练函数。回归结果保存

2018-02-07 14:56:36 1415

原创 MADlib——基于SQL的数据挖掘解决方案(17)——回归之Cox比例风险回归

一、Cox比例风险回归简介        Cox比例风险回归模型(Cox’s proportional hazards regression model),简称Cox回归模型,由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。 1.  基本概念生存函数:又称累计生存率,简称生存率,常用S(t)表示。代表被观察对象的生存时间大于t时刻的概率

2018-02-06 11:39:18 4865

原创 MADlib——基于SQL的数据挖掘解决方案(16)——回归之弹性网络回归

一、弹性网络回归简介        要想理解弹性网络(Elastic Net)回归,正则化是必须要首先知道的,其次是岭回归和Lasso回归,知道了这些,弹性网络回归自然也就明白了。 1.  正则化        假设利用最小二乘法来做线性回归,最小二乘法回归成功的条件是:        即上面这个函数(损失函数)达到最小值,可得到最优的拟合参数θ。但是存在这样一种情况,如果我们用来拟合的自变量(特

2018-02-05 16:32:17 2561

原创 MADlib——基于SQL的数据挖掘解决方案(15)——回归之序数回归

上篇介绍的多类回归,因变量的多个分类是无序的,即所谓的定类数据。还有一种分类数据,其类别存在大小顺序,即定序数据。这两类逻辑回归的原理是不同的。本篇介绍MADlib的序数回归模型。 一、序数回归简介        在统计学中,序数回归(Ordinal Regression,也称为“序数分类”)是一种用于预测序数变量的回归分析,即其值存在于任意范围内的变量,其中只有不同值之间的相对排序是显着的。它可

2018-02-02 13:42:51 3578

原创 MADlib——基于SQL的数据挖掘解决方案(14)——回归之多类回归

一、多类回归简介1. 基本介绍        如上篇所述,逻辑回归比较常用的是因变量为二分类的情况,这也是比较简单的一种形式。但在现实中,因变量的分类有时候多于两类,如疗效可能是“无效”“显效”“痊愈”三类,当然可以把其中两类进行合并,然后仍然按照二分类逻辑回归进行分析,但是合并的弊端是显而易见的,它可能损失一定的信息。而多分类则充分利用了完整的信息,可能提供更多的结果。如果目标类别数超过两个,这

2018-02-01 14:15:21 962

PD_导出模板.rtp

Powerdesigner 物理模型report模板,可用于生成数据字典Word文档。

2021-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除