R语言
HowardGe
基于运筹学和统计学带来最佳的商业运营模式
展开
-
rJava安装及Java吊取R注意事项
R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。原创 2014-08-26 21:49:26 · 7135 阅读 · 0 评论 -
收益管理系统(PROS)缘何在中国水土不服?
收益管理系统缘于放松管制后的美国民航,更因美利坚航空(American Airlines, Inc.)借此击败人民捷运的战役而一举成名。曾经被看作先进管理经验的结晶而迅速广泛地被国内航空公司急切地引进。然而十余年过去了,结果是在国内航线的管理中被普遍放弃。为何? 一、中国民航运价管理历程 我国八十年代,坐飞机需要达到一定级别并凭介绍信购票,航空旅行可谓是一种身份的象征,这时的中国逐渐引转载 2015-06-29 09:40:47 · 5669 阅读 · 0 评论 -
R语言与数据分析之三:分类算法2
上期与大家分享的传统分类算法都是建立在判别函数的基础上,通过判别函数值来确定目标样本所属的分类,这类算法有个最基本的假设:线性假设。今天继续和大家分享下比较现代的分类算法:决策树和神经网络。这两个算法都来源于人工智能和机器学习学科。首先和小伙伴介绍下数据挖掘领域比较经典的Knn(nearest neighbor)算法(最近邻算法)算法基本思想:Step1:计算出待测样本与学习集中所有点原创 2014-12-09 09:33:30 · 5334 阅读 · 0 评论 -
R语言与数据分析之八:时间序列--霍尔特指数平滑法
上篇我和小伙伴们分享了简单指数平滑法,简单指数平滑法只能预测那些处于恒定水平和没有季节变动的时间序列,今天和大家分享非恒定水平即有增长或者降低趋势的,没有季节性可相加模型的时间序列预测算法---霍尔特指数平滑法(Holt)。Holt 指数平滑法估计当前时间的水平和斜率。其平滑水平是由两个参数控制,alpha:估计当前点水平;beta:估计当前点趋势部分斜率。两个参数都介于0-1之间,当参数越接原创 2014-12-19 11:04:22 · 19831 阅读 · 7 评论 -
R语言与数据分析之五:主成分分析
主成份分析历史:Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法。通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目,可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析。通过对原始变量进行线性组合,得到优化的指标:把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)基本思想:设法将原先众多具有原创 2014-12-15 09:59:04 · 11545 阅读 · 0 评论 -
R语言与数据分析之四:聚类算法2
今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法,今天和大家分享几个动态聚类算法。首先和大家分享被评为十大数据挖掘算法之一的K-means 算法(K为分类的个数,mean为平均值,该算法的难点即为K的指点)Step1:选择K个点作为初始质心;Step2:将剩余每个点指派到最近的质心,形成K个簇(聚类);Step3:重新计算簇的原创 2014-12-12 10:43:11 · 3379 阅读 · 0 评论 -
R语言与数据分析之四:聚类算法1
前面和大家分享的分类算法属于有监督学习的分类算法,今天继续和小伙伴们分享无监督学习分类算法---聚类算法。聚类算法也因此更具有大数据挖掘的味道聚类算法本质上是基于几何距离远近为标准的算法,最适合数据是球形的问题,首先罗列下常用的距离:绝对值距离(又称棋盘距离或城市街区距离)Euclide距离(欧几里德距离,通用距离)Minkowski 距离(闵可夫斯基距离),欧原创 2014-12-10 16:22:43 · 5814 阅读 · 0 评论 -
R语言与数据分析之十:购物篮分析
提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据;常见关联规则:关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,来限定规则的产生;置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的原创 2014-12-23 10:30:02 · 9341 阅读 · 0 评论 -
R语言与数据分析之三:分类算法1
分类算法与我们的生活息息相关,也是目前数据挖掘中应用最为广泛的算法,如:已知系列的温度、湿度的序列和历史的是否下雨的统计,我们需要利用历史的数据作为学习集来判断明天是否下雨;又如银行信用卡诈骗判别。分类问题都有一个学习集,根据学习集构造判别函数,最后根据判别函数计算我们所需要判别的个体属于哪一类的。常见的分类模型与算法传统方法1、线性判别法;2、距离判别法;3、贝叶斯分类器;现原创 2014-12-08 10:18:09 · 8124 阅读 · 0 评论 -
R语言与数据分析之九:时间内序列--HoltWinters指数平滑法
今天继续就指数平滑法中最复杂的一种时间序列:有增长或者降低趋势并且存在季节性波动的时间序列的预测算法即Holt-Winters和大家分享。这种序列可以被分解为水平趋势部分、季节波动部分,因此这两个因素应该在算法中有对应的参数来控制。Holt-Winters算法中提供了alpha、beta和gamma 来分别对应当前点的水平、趋势部分和季节部分,参数的去执法范围都是0-1之间,并且参数接近0时,原创 2014-12-22 10:22:36 · 25366 阅读 · 5 评论 -
R语言与数据分析之七:时间序列简单指数平滑
上篇我们对时间序列数列有了整体的认识并将时间序列进行了分解,今天和小伙伴们分享常用预测算法中相对最简单的:简单指数平滑法。简单指数平滑适用于可用相加模型描述,并且处于恒定水平和没有季节变动的时间序列地短期预测。简单指数平滑法提供了一种方法估计当前时间点上的水平。为了更加准确的估计当前时间的水平,我们使用alpha参数来控制平滑,alpha的取值在0-1之间。当alpha越接近0,临近预测的观测原创 2014-12-18 11:20:52 · 21376 阅读 · 7 评论 -
R语言与数据分析之二:绘图
图形展示是最高效且形象的数据描述手段,因此巧妙的图像展示是高质量数据分析报告的必备内容,因此强大的图形展示功能也是统计分析软件的必备功能。R语言提供了强大的吐血展示功能。今天我由简单到复杂分别和小伙伴们分享如何用R语言画出各位想要的图形原创 2014-12-02 17:22:03 · 10820 阅读 · 0 评论 -
R语言与数据分析之六:时间序列简单介绍
今年在某服装企业蹲点了4个多月,之间很长一段时间在探索其现货和期货预测,时间序列也是做销售预测的首选,今天和小伙伴分享下时间序列的基本性质和如何用R来挖据时间序列的相关属性。首先读入一个时间序列:从1946年1月到1959年12月的纽约每月出生人口数量(由牛顿最初收集)数据集可以从此链接下载(http://robjhyndman.com/tsdldata/data/nybirths.dat)。原创 2014-12-17 11:16:09 · 11344 阅读 · 3 评论 -
R与数据分析学习总结之一:R语言基本操作
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。原创 2014-11-29 19:22:16 · 10718 阅读 · 0 评论 -
R to access the MS Access
R to access the MS Access定义DSN(data source name)control panel ->Administrative Tools->Data Sources(ODBC)->System DSN;connect Rwith Accessinstall.packages("RODBC")libray(RODBC)channel<-odbcConnect(m原创 2015-11-20 13:47:31 · 805 阅读 · 0 评论