2014年12月_HowardGe

12月 11月 09月 08月 07月 06月 04月 03月 01月

原创 R语言与数据分析之十：购物篮分析

提到数据挖掘，我们第一反应就是之前听到的啤酒和尿不湿的故事，该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为，关联分析针对离散数据；常见关联规则：关联规则：牛奶=>鸡蛋【支持度=2%，置信度=60%】支持度：分析中的全部事务的2%同时购买了牛奶和鸡蛋，需设定域值，来限定规则的产生；置信度：购买了牛奶的筒子有60%也购买了鸡蛋，需设定域值，来限定规则的

2014-12-23 10:30:02 9313

原创不同数据库分页总结

总结下主流的MYSQL，sqlSever 和oracle的数据库的分页代码，如下：MySQL：select * from TableName where …… limit start_th , count_num;　 SqlSever：select top count_num from TableName where id not in (select top count_num fro

2014-12-22 16:49:56 1902

原创 R语言与数据分析之九：时间内序列--HoltWinters指数平滑法

今天继续就指数平滑法中最复杂的一种时间序列：有增长或者降低趋势并且存在季节性波动的时间序列的预测算法即Holt-Winters和大家分享。这种序列可以被分解为水平趋势部分、季节波动部分，因此这两个因素应该在算法中有对应的参数来控制。Holt-Winters算法中提供了alpha、beta和gamma 来分别对应当前点的水平、趋势部分和季节部分，参数的去执法范围都是0-1之间，并且参数接近0时，

2014-12-22 10:22:36 25340 5

原创 R语言与数据分析之八：时间序列--霍尔特指数平滑法

上篇我和小伙伴们分享了简单指数平滑法，简单指数平滑法只能预测那些处于恒定水平和没有季节变动的时间序列，今天和大家分享非恒定水平即有增长或者降低趋势的，没有季节性可相加模型的时间序列预测算法---霍尔特指数平滑法（Holt）。Holt 指数平滑法估计当前时间的水平和斜率。其平滑水平是由两个参数控制，alpha：估计当前点水平；beta：估计当前点趋势部分斜率。两个参数都介于0-1之间，当参数越接

2014-12-19 11:04:22 19775 7

原创 R语言与数据分析之七：时间序列简单指数平滑

上篇我们对时间序列数列有了整体的认识并将时间序列进行了分解，今天和小伙伴们分享常用预测算法中相对最简单的：简单指数平滑法。简单指数平滑适用于可用相加模型描述，并且处于恒定水平和没有季节变动的时间序列地短期预测。简单指数平滑法提供了一种方法估计当前时间点上的水平。为了更加准确的估计当前时间的水平，我们使用alpha参数来控制平滑，alpha的取值在0-1之间。当alpha越接近0，临近预测的观测

2014-12-18 11:20:52 21352 7

原创 R语言与数据分析之六：时间序列简单介绍

今年在某服装企业蹲点了4个多月，之间很长一段时间在探索其现货和期货预测，时间序列也是做销售预测的首选，今天和小伙伴分享下时间序列的基本性质和如何用R来挖据时间序列的相关属性。首先读入一个时间序列：从1946年1月到1959年12月的纽约每月出生人口数量（由牛顿最初收集）数据集可以从此链接下载（http://robjhyndman.com/tsdldata/data/nybirths.dat）。

2014-12-17 11:16:09 11311 3

原创 R语言与数据分析之五：主成分分析

主成份分析历史：Pearson于1901年提出，再由Hotelling（1933）加以发展的一种多变量统计方法。通过析取主成分显出最大的个别差异，也用来削减回归分析和聚类分析中变量的数目，可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析。通过对原始变量进行线性组合，得到优化的指标：把原先多个指标的计算降维为少量几个经过优化指标的计算（占去绝大部分份额）基本思想：设法将原先众多具有

2014-12-15 09:59:04 11500

原创 R语言与数据分析之四：聚类算法2

今天继续和小伙伴们分享聚类算法和R语言的实现，上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法，今天和大家分享几个动态聚类算法。首先和大家分享被评为十大数据挖掘算法之一的K-means 算法（K为分类的个数，mean为平均值，该算法的难点即为K的指点）Step1：选择K个点作为初始质心；Step2：将剩余每个点指派到最近的质心，形成K个簇（聚类）；Step3：重新计算簇的

2014-12-12 10:43:11 3366

原创 R语言与数据分析之四：聚类算法1

前面和大家分享的分类算法属于有监督学习的分类算法，今天继续和小伙伴们分享无监督学习分类算法---聚类算法。聚类算法也因此更具有大数据挖掘的味道聚类算法本质上是基于几何距离远近为标准的算法，最适合数据是球形的问题，首先罗列下常用的距离：绝对值距离（又称棋盘距离或城市街区距离）Euclide距离（欧几里德距离，通用距离）Minkowski 距离（闵可夫斯基距离），欧

2014-12-10 16:22:43 5787

原创 R语言与数据分析之三：分类算法2

上期与大家分享的传统分类算法都是建立在判别函数的基础上，通过判别函数值来确定目标样本所属的分类，这类算法有个最基本的假设：线性假设。今天继续和大家分享下比较现代的分类算法：决策树和神经网络。这两个算法都来源于人工智能和机器学习学科。首先和小伙伴介绍下数据挖掘领域比较经典的Knn（nearest neighbor）算法（最近邻算法）算法基本思想：Step1：计算出待测样本与学习集中所有点

2014-12-09 09:33:30 5321

原创 R语言与数据分析之三：分类算法1

分类算法与我们的生活息息相关，也是目前数据挖掘中应用最为广泛的算法，如：已知系列的温度、湿度的序列和历史的是否下雨的统计，我们需要利用历史的数据作为学习集来判断明天是否下雨；又如银行信用卡诈骗判别。分类问题都有一个学习集，根据学习集构造判别函数，最后根据判别函数计算我们所需要判别的个体属于哪一类的。常见的分类模型与算法传统方法1、线性判别法；2、距离判别法；3、贝叶斯分类器；现

2014-12-08 10:18:09 8092

经过了1个多月的探索与尝试，发觉服装行业的销售预测和一般零售行业的销售预测有着很大的差别，其本质原因是服装行业货品的销售pattern区别于一般零售行业，主要体现在以下两点：1、服装行业货品销售受季节影响非常显著，主要体现在销售的主推季会受气候波动而变化；2、服装行业货品的销售周期比传统零售要短很多，一年之内常常有2季：春夏和秋冬，货品不存在一般零售行业的原款升级换代的做法，一般零售行业的升级款会带有老款

2014-12-05 12:37:24 3100

原创 oracel cmd 命令总结

登录sqlplus/ as sysdba创建数据表空间 create tablespace zhbh_db logging datafile 'D:\app\HowardGe\oradata\zhbh_db.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local; 创建

2014-12-03 17:24:17 1406

原创 R语言与数据分析之二：绘图

图形展示是最高效且形象的数据描述手段，因此巧妙的图像展示是高质量数据分析报告的必备内容，因此强大的图形展示功能也是统计分析软件的必备功能。R语言提供了强大的吐血展示功能。今天我由简单到复杂分别和小伙伴们分享如何用R语言画出各位想要的图形

2014-12-02 17:22:03 10777

log4cplus 1 0 4

log4cplus是C++编写的开源的日志系统，前身是java编写的log4j系统.受Apache Software License保护。作者是Tad E. Smith。log4cplus具有线程安全、灵活、以及多粒度控制的特点，通过将信息划分优先级使其可以面向程序调试、运行、测试、和维护等全生命周期；你可以选择将信息输出到屏幕、文件、NT event log、甚至是远程服务器；通过指定策略对日志进行定期备份等等。">log4cplus是C++编写的开源的日志系统，前身是java编写的log4j系统.受Apache Software License保护。作者是Tad E. Smith。log4cplus具有线程安全、灵活、以及多粒度控制的特点，通过将信息划分优先级使其可以面向程序调试、运行、测试、和维 [更多]

2015-01-19

我的命名规范

我的命名规范，结合了谷歌c++ 命名规范和“匈牙利”法则。

2014-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

OR家园-howard