统计分析与数据挖掘
文章平均质量分 50
statdm
这个作者很懒,什么都没留下…
展开
-
另眼看待变量间多重共线性
多重共线性是使用回归算法时经常要面对的一个问题。在其他算法中,例如决策树和Naïve Bayes,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;后者干脆假定变量之间是相互独立的,因此从表面上看,也没有多重共线性的问题。但是对于回归算法,不论是一般回归,逻辑回归,或存活分析,都要同时考虑多个预测因子,因此多重共线性是不可避免需要面对的。而在营销数据中,多重共线性更是一个普遍的现象。 多重共线性的危害主要是使用上的问题。简单地说,由于变量之间的高度相关,使算法无法原创 2011-03-31 19:36:00 · 9097 阅读 · 2 评论 -
判别模型、生成模型与朴素贝叶斯方法
原创 2012-07-03 11:22:32 · 2776 阅读 · 0 评论 -
规则化和模型选择(Regularization and model selection)
原创 2012-07-03 11:44:12 · 1271 阅读 · 0 评论 -
在R 语言中调用关联规则算法的一般命令
library(arules) #加载arules程序包data(Groceries) #调用数据文件frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10)) #求频繁项集inspect(frequentsets[1:10]) #察看求得的频繁项集inspect(sort(frequentsets,原创 2012-02-06 12:41:32 · 10504 阅读 · 0 评论 -
SAS逻辑回归实例
作为某商品类目公司的市场分析师,你可能需要为二值目标变量(purchase)建立逻辑回归模型,判断某个顾客是否会产生购买。输入数据集存放在SAS安装文件的SAMPSIO.DMEXA1中,该数据集包含1966个顾客观测值信息。它包含31个区间变量输入和18个分类变量输用于构建模型。该逻辑回归模型产生的打分公式应用在新的数据集中,给那些可能产生购买的顾客发送邮件。1创建SAS EM工程原创 2012-07-20 12:40:11 · 22835 阅读 · 2 评论 -
常见多变量/多元统计分析方法分类图
原创 2012-07-20 11:31:20 · 8097 阅读 · 1 评论 -
决策树 & SAS
决策树决策树主要用来描述将数据划分为不同组的规则。第一条规则首先将整个数据集划分为不同大小的子集,然后将另外的规则应用在子数据集中,数据集不同相应的规则也不同,这样就形成第二层数据集的划分。一般来说,一个子数据集或者被继续划分或者单独形成一个分组。1问题背景预测模型案例概述一家金融服务公司为客户提供房屋净值贷款。该公司在过去已经拓展了数千净值贷款服务。但是,在这些申原创 2012-07-20 12:36:27 · 15429 阅读 · 4 评论 -
MATLAB 函数大全
附录1 常用命令附录1.1 管理用命令函数名功能描述函数名功能描述addpath增加一条搜索路径rmpath删除一条搜索路径demo运行Matlab演示程序type列出.M文件doc装入超文本文档version显示Matlab的版本号help启动联机帮助what列出当前目原创 2012-07-30 13:30:51 · 9363 阅读 · 0 评论 -
关联规则算法(扫盲篇)
关联规则算法课件,对关联规则中的几个概念讲述的非常清楚http://wenku.baidu.com/view/6be795d9ad51f01dc281f187.html#10002-qzone-1-83904-35...数据挖掘整体介绍及关联规则应用案例http://www.docin.com/p-89331253.html?bsh_bid=101197840原创 2012-07-31 13:14:59 · 6583 阅读 · 0 评论 -
学习统计类算法要诀
2.带着问题看各种书,不要看书找问题; 3.带着问题,集中几天系统看,不要每天看一点; 4.不断地问自己为什么; 5.原理、概念的理解比算题重要得多; 6.统计方法高级不一定好,简单有效最好。 7.讲清才是真懂,理解只是前奏; 8.统计先是思维方式,而后才是数学; 9.努力体验提升思维境界和突破思维疆界的兴奋;原创 2012-08-16 10:25:21 · 6608 阅读 · 0 评论 -
LAPACK 相关 (继续添加中)
1、LAPACK的编译http://gcc.gnu.org/testing/testing-lapack.html原创 2012-12-13 11:30:43 · 5667 阅读 · 0 评论 -
孤立点分析常用方法
孤立点是指数据集中那些小模式数据,它可能是度量或执行错误所导致的, 也可能是固有数据变异性的结果。Hawkins给出了其本质性定义: 孤立点是在数据集中与众不同的数据, 使人怀疑这些数据并非随机偏差, 而是产生于完全不同的机制。一般的孤立点挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的; 二是找到一个有效的方法来挖掘这样的孤立点。 传统的孤立点挖掘算法原创 2012-07-11 11:43:40 · 8085 阅读 · 0 评论 -
hadoop/mapreduce-矩阵乘法的实现代码下载
最近在研究hadoop与mapReduce,网上教程只有个wordcount程序示范,太简单,故写了个相对复杂点的涉及到多个文件之间同时运算的矩阵乘法的代码用于实验与测试,供大家学习与参考。下载地址:http://download.csdn.net/detail/statdm/4395736调用方法:执行:hadoop jar matrix.jar com.ba原创 2012-06-27 09:53:40 · 3562 阅读 · 1 评论 -
t 分布表
原创 2012-06-19 15:40:21 · 18112 阅读 · 0 评论 -
常用的一些算法
美国2006年机器学习和知识发现年会中的现场投票结果可以给我们一点线索。下图是最近12个月中使用各种算法的人次(共203人投票)。 由于是自愿投票,对投票人的背景,行业,和工作领域没有任何控 制,因此这个结果在代表性方面当然是不够完整的。但是,我们还是可以通过这个调查粗略了解到目前数据挖掘算法的使用态势。总的来说,用于分类和预测的决策树和回归算法,以及用于描述的聚类分析占有主导地位。对于有志于从事数据挖掘的毕业生和专业人士来说,掌握和精通这几种算法有最广阔的应用前景。 决策树和逻辑回归从技术角原创 2011-03-31 20:12:00 · 8047 阅读 · 0 评论 -
逻辑回归与决策树在分类上的一些区别
营销预测模型的目标变量很多为一种状态或类型,如客户“买”还是“不买”、客户选择上网方式为 “宽带”还是“拨号”、营销战通道是邮件、电话、还是网络。我们把这类问题统称为 “分类”。决策树和逻辑回归都是解决“分类”问题的高手。用不同的算法解答同样的问题,自然引出了两者孰优孰劣的讨论,但迄今为止,仍然没有一个明确的结论。出现这种情况是意料之中的,因为两者的具体表现取决于数据状况和挖掘人员的水平。从算法本身看,决策树和回归各有优势,因此最好的应用不是两者择一,而是相互取舍,利用一方的长处弥补另一方的不足。 在进一原创 2011-03-31 20:37:00 · 11944 阅读 · 0 评论 -
《多元统计和SAS软件应用》课件
豆丁文档地址: http://www.docin.com/p-89625505.html原创 2011-04-07 19:45:00 · 1633 阅读 · 0 评论 -
统计概论(扫盲篇)
统计 客观事物数量特征和数量关系原创 2011-07-18 15:11:50 · 6629 阅读 · 0 评论 -
千万别滥用指标数据标准化
最近在审理一篇稿子,一位作者做农户评价。先对某地区农户调查,然后将调查对象的若干指标,比如农户教育水平进行标准化,最后再计算标准化后的平均值,据以判断该指标某地区水平,比如均值为85,那么应该不错,均值为30,就比较差了。 这种做法是极为错误的,犯了方法错误,理由如下:一、标准化方法低估了指标水平。作者标准化方法是:Zij=【Xij-min(Xij)】/【max(Xij)-min转载 2012-04-18 10:02:11 · 4672 阅读 · 0 评论 -
OLAP与数据挖掘的区别
大多数同事都曾做过OLAP相关的项目,他们常搞不清OLAP与数据挖掘有什么区别,现摘录一段文字来说明 所谓OLAP(Online Analytical Process)意指由数据库所连结出来的在线分析处理程序。有些人会说:「我已经有OLAP的工具了,所以我不需要Data Mining。」事实上两者间是截然不同的,主要差异在于Data Mining用在产生假设,OLAP则用于查证假设原创 2012-05-17 10:41:55 · 10579 阅读 · 1 评论 -
对线性回归,logistic回归和一般回归的认识
1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。 讲义最初介绍了一个基本问题,然后引出了线性回归的解决方法,然后针对误差问题做了概率解释。之后介绍了logistic原创 2012-05-20 17:51:44 · 58523 阅读 · 4 评论 -
典型相关分析相关资料
典型相关分析的基本思想 Canonical Correlation Analysis CCA典型相关分析(canonical correlation analysis)利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组原创 2012-05-20 17:29:14 · 66952 阅读 · 7 评论 -
科普-文本挖掘(文本分类)流程
一个典型的文本分类的数据挖掘流程如下图,这张图初看有点乱,我这里解释一下,红色的部分是训练时候调用的模块,绿色是测试时候调用的模块,而蓝色的部分是训练的时候生成的中间文件,它们联系着训练、测试两个部分。从左到右看是算法运行的流程,首先用户给出原始的用于训练的中文文本,然后进行分词等操作。 经过了生成矩阵这个步骤,文本就转化成了数学语言了,之后的算法都是运行在这个数学语言之上,之后的算法就不再关心输原创 2012-07-04 13:56:05 · 6412 阅读 · 0 评论 -
一些开源代码网站介绍(持续添加中....)
1、Netlib 网站:http://www.netlib.org/介绍:Netlib is a repository of software for scientific computing maintained by AT&T, Bell Laboratories, the University of Tennessee and Oak Ridge National L原创 2012-12-13 15:01:29 · 6805 阅读 · 0 评论