数据分析
文章平均质量分 75
lpxuan151009
专注数据模型架构,数据仓库,海量数据处理.
展开
-
数据挖掘常见软件
传统的数据挖掘套件(Classic suites):SAS Enterprise Miner 5.3SPSS Clementine 12 开源数据挖掘软件(Open Source):RapidMiner 4.2KNIME 1.3.5Weka 3.4.13 自动化数据挖掘软件(Self-Acting):KXEN Analytic Framework 4.04 专门化的数据挖掘软件(Specializ原创 2010-01-18 16:58:00 · 3406 阅读 · 0 评论 -
数据挖掘方法论-SEMMA
SAS研究所不仅有丰富的工具供你选用,而且在多年的数据处理研究工作中积累了一套行之有效的数据挖掘方法论──SEMMA,通过使用SAS技术进行数据挖掘,我们愿意和你分享这些经验:_ Sample──数据取样_ Explore──数据特征探索、分析和予处理_ Modify──问题明确化、数据调整和技术选择_ Model──模型的研发、知识的发现_ Assess──模型和知原创 2010-01-31 11:32:00 · 8525 阅读 · 0 评论 -
数据挖掘方法论crisp-DM
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data minin原创 2010-01-31 11:28:00 · 6031 阅读 · 0 评论 -
数据挖掘常见分析方法
数据挖掘常见分析方法一、回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来。所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析原创 2010-02-27 19:34:00 · 11207 阅读 · 1 评论 -
统计分析方法分类
统计分析方法:1)数据的统计推断:参数估计与假设检验方差分析: (proc anova/glm(多因子非均衡时使用))(要求所研究的指标具有独立性,正态性和方差齐性)研究若干个因素及因素间的交互作用对一个(或多个)指标的影响,解决如下的问题:a、对指标的影响,哪些因素重要,哪些因素不重要b、每个因素中哪种水平对指标来说最好c、各因素以原创 2010-03-07 20:33:00 · 13028 阅读 · 1 评论 -
简单抽样和复杂抽样
简单抽样。从下列选项中选择抽样方法:a)从第一条记录开始连续抽取。选择此选项将使用连续数据抽样。例如,如果最大样本大小设置为 10000,则前 10000 条记录会被选中。b) n 中取 1。选择此选项会按照这样的方式抽样数据:每隔 n 个记录传递或丢弃一次。例如原创 2011-08-22 14:16:49 · 3510 阅读 · 0 评论 -
数据标准化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 其中最典型的就是数据的归一化处理,即将数据统一映射到[原创 2011-08-18 11:59:58 · 3411 阅读 · 0 评论 -
常见统计量
最小值. 数值变量的最小值。最大值. 数值变量的最大值。总数. 所有具有缺失值的测量值的总和或合计。范围.数值变量的最大值与最小值的差值就是用最大值减最小值后得出的值。平均值. 集中趋势的测量。 算术平均值,等于总和除以观测值数。均值标准误原创 2011-08-22 14:13:32 · 3640 阅读 · 1 评论