![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 76
HowardGe
基于运筹学和统计学带来最佳的商业运营模式
展开
-
K-Means聚类算法 --Matlab实现
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。原创 2014-08-13 16:07:47 · 2928 阅读 · 0 评论 -
R语言与数据分析之十:购物篮分析
提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据;常见关联规则:关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,来限定规则的产生;置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的原创 2014-12-23 10:30:02 · 9236 阅读 · 0 评论 -
服装行业预测总结
经过了1个多月的探索与尝试,发觉服装行业的销售预测和一般零售行业的销售预测有着很大的差别,其本质原因是服装行业货品的销售pattern区别于一般零售行业,主要体现在以下两点:1、 服装行业货品销售受季节影响非常显著,主要体现在销售的主推季会受气候波动而变化;2、 服装行业货品的销售周期比传统零售要短很多,一年之内常常有2季:春夏和秋冬,货品不存在一般零售行业的原款升级换代的做法,一般零售行业的升级款会带有老款原创 2014-12-05 12:37:24 · 3029 阅读 · 0 评论 -
R语言与数据分析之四:聚类算法1
前面和大家分享的分类算法属于有监督学习的分类算法,今天继续和小伙伴们分享无监督学习分类算法---聚类算法。聚类算法也因此更具有大数据挖掘的味道聚类算法本质上是基于几何距离远近为标准的算法,最适合数据是球形的问题,首先罗列下常用的距离:绝对值距离(又称棋盘距离或城市街区距离)Euclide距离(欧几里德距离,通用距离)Minkowski 距离(闵可夫斯基距离),欧原创 2014-12-10 16:22:43 · 5720 阅读 · 0 评论 -
R语言与数据分析之四:聚类算法2
今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法,今天和大家分享几个动态聚类算法。首先和大家分享被评为十大数据挖掘算法之一的K-means 算法(K为分类的个数,mean为平均值,该算法的难点即为K的指点)Step1:选择K个点作为初始质心;Step2:将剩余每个点指派到最近的质心,形成K个簇(聚类);Step3:重新计算簇的原创 2014-12-12 10:43:11 · 3328 阅读 · 0 评论 -
R语言与数据分析之五:主成分分析
主成份分析历史:Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法。通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目,可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析。通过对原始变量进行线性组合,得到优化的指标:把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)基本思想:设法将原先众多具有原创 2014-12-15 09:59:04 · 11268 阅读 · 0 评论 -
收益管理简介
收益管理起源于民用航空业,是美国的航空公司在上个世纪80 年代为解决激烈的市场竞争问题而提出的一种新的管理方法。随着科学技术的发展,特别是信息技术的飞速发展,再加上行业管制的逐渐放开,收益管理的理论与方法得到了更加广泛的应用。至今,收益管理已在航空、酒店、旅游服务、金融服务、货物运输以及制造业等领域得到了应用,对收益管理理论的研究也随之得到了不断的完善。一、收益管理的思想方法概括而言,转载 2015-02-02 16:18:55 · 6605 阅读 · 0 评论 -
R语言与数据分析之八:时间序列--霍尔特指数平滑法
上篇我和小伙伴们分享了简单指数平滑法,简单指数平滑法只能预测那些处于恒定水平和没有季节变动的时间序列,今天和大家分享非恒定水平即有增长或者降低趋势的,没有季节性可相加模型的时间序列预测算法---霍尔特指数平滑法(Holt)。Holt 指数平滑法估计当前时间的水平和斜率。其平滑水平是由两个参数控制,alpha:估计当前点水平;beta:估计当前点趋势部分斜率。两个参数都介于0-1之间,当参数越接原创 2014-12-19 11:04:22 · 19594 阅读 · 7 评论 -
R语言与数据分析之三:分类算法2
上期与大家分享的传统分类算法都是建立在判别函数的基础上,通过判别函数值来确定目标样本所属的分类,这类算法有个最基本的假设:线性假设。今天继续和大家分享下比较现代的分类算法:决策树和神经网络。这两个算法都来源于人工智能和机器学习学科。首先和小伙伴介绍下数据挖掘领域比较经典的Knn(nearest neighbor)算法(最近邻算法)算法基本思想:Step1:计算出待测样本与学习集中所有点原创 2014-12-09 09:33:30 · 5292 阅读 · 0 评论 -
R语言与数据分析之三:分类算法1
分类算法与我们的生活息息相关,也是目前数据挖掘中应用最为广泛的算法,如:已知系列的温度、湿度的序列和历史的是否下雨的统计,我们需要利用历史的数据作为学习集来判断明天是否下雨;又如银行信用卡诈骗判别。分类问题都有一个学习集,根据学习集构造判别函数,最后根据判别函数计算我们所需要判别的个体属于哪一类的。常见的分类模型与算法传统方法1、线性判别法;2、距离判别法;3、贝叶斯分类器;现原创 2014-12-08 10:18:09 · 8016 阅读 · 0 评论 -
不同数据库分页总结
总结下主流的MYSQL,sqlSever 和oracle的数据库的分页代码,如下:MySQL:select * from TableName where …… limit start_th , count_num; SqlSever:select top count_num from TableName where id not in (select top count_num fro原创 2014-12-22 16:49:56 · 1890 阅读 · 0 评论 -
oracel cmd 命令总结
登录sqlplus/ as sysdba创建数据表空间 create tablespace zhbh_db logging datafile 'D:\app\HowardGe\oradata\zhbh_db.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local; 创建原创 2014-12-03 17:24:17 · 1377 阅读 · 0 评论 -
店群分析
1背景介绍1.1定义聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。它是一种将样品按照它们在性质上的亲疏程度进行分类,亲疏的判断依据为计算多维空间点的距离,其目标就是在相似的基础上收集数据来分类。1.2常用方法目前,有大量的聚类算法。而对于具体应用,聚类算法的选择取决于数据的类型、聚类的目的。主要的聚类算法可以划分为如原创 2014-08-22 16:22:08 · 2011 阅读 · 0 评论 -
聚类分析在用户分类中的应用
什么是聚类分析? 聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。 聚类分析的基本过程是怎样的?转载 2014-08-13 15:56:30 · 5716 阅读 · 1 评论 -
四种聚类方法之比较
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地转载 2014-08-13 15:41:01 · 2164 阅读 · 0 评论 -
ER-Studio的五种关系说明
1. identifying relationship: 1对多。 父实体的主键是子实体的外键(FK1),且FK1是主键。 2. no identifying, mandatory relationship: 1对多。 父实体的主键是子实体的外键(FK1),FK1不为空。 3. no identifying, optional relaotionship: 1对多转载 2014-07-03 10:04:39 · 1312 阅读 · 0 评论 -
R与数据分析学习总结之一:R语言基本操作
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。原创 2014-11-29 19:22:16 · 10647 阅读 · 0 评论 -
rJava安装及Java吊取R注意事项
R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。原创 2014-08-26 21:49:26 · 7064 阅读 · 0 评论 -
R语言与数据分析之六:时间序列简单介绍
今年在某服装企业蹲点了4个多月,之间很长一段时间在探索其现货和期货预测,时间序列也是做销售预测的首选,今天和小伙伴分享下时间序列的基本性质和如何用R来挖据时间序列的相关属性。首先读入一个时间序列:从1946年1月到1959年12月的纽约每月出生人口数量(由牛顿最初收集)数据集可以从此链接下载(http://robjhyndman.com/tsdldata/data/nybirths.dat)。原创 2014-12-17 11:16:09 · 11231 阅读 · 3 评论 -
R语言与数据分析之二:绘图
图形展示是最高效且形象的数据描述手段,因此巧妙的图像展示是高质量数据分析报告的必备内容,因此强大的图形展示功能也是统计分析软件的必备功能。R语言提供了强大的吐血展示功能。今天我由简单到复杂分别和小伙伴们分享如何用R语言画出各位想要的图形原创 2014-12-02 17:22:03 · 10691 阅读 · 0 评论 -
R语言与数据分析之九:时间内序列--HoltWinters指数平滑法
今天继续就指数平滑法中最复杂的一种时间序列:有增长或者降低趋势并且存在季节性波动的时间序列的预测算法即Holt-Winters和大家分享。这种序列可以被分解为水平趋势部分、季节波动部分,因此这两个因素应该在算法中有对应的参数来控制。Holt-Winters算法中提供了alpha、beta和gamma 来分别对应当前点的水平、趋势部分和季节部分,参数的去执法范围都是0-1之间,并且参数接近0时,原创 2014-12-22 10:22:36 · 25226 阅读 · 5 评论 -
收益管理系统(PROS)缘何在中国水土不服?
收益管理系统缘于放松管制后的美国民航,更因美利坚航空(American Airlines, Inc.)借此击败人民捷运的战役而一举成名。曾经被看作先进管理经验的结晶而迅速广泛地被国内航空公司急切地引进。然而十余年过去了,结果是在国内航线的管理中被普遍放弃。为何? 一、中国民航运价管理历程 我国八十年代,坐飞机需要达到一定级别并凭介绍信购票,航空旅行可谓是一种身份的象征,这时的中国逐渐引转载 2015-06-29 09:40:47 · 5507 阅读 · 0 评论