- 博客(7)
- 资源 (17)
- 收藏
- 关注
原创 大数据研究常用软件工具与应用场景
如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。工欲善其事,必先利其器。众多新的软件分析工具作为深入大数据洞察研究的重要助力, 也成为数据科学家所必须掌握的知识技能。然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中,需要根据实际情况灵活选择最合适的工具
2015-10-29 09:31:52 1583
转载 数据挖掘算法之-关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和
2015-10-20 16:29:16 3092
转载 基础篇:数据挖掘的聚类算法和优势
文|十方比较分类算法的话,大概考虑这几个维度:时间空间复杂度,鲁棒性,参数敏感性,处理不规则形状,适合的类数量,类间差异(范围大小,样本个数,形状差异)可以参照一下sklearn网站给出的列表:2.3. Clustering除了这些聚类方法以外,统计老师讲过一些传统的聚类方法,归属于系统聚类的范畴,先定义观测间的距离和类之间的距离计算方法,然后按照距离把最接
2015-10-20 16:27:11 1081
转载 用户画像数据建模方法
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮
2015-10-20 16:22:42 1587
转载 从银行、保险到证券,揭开大数据在金融行业的应用
从银行、保险到证券,揭开大数据在金融行业的应用数据显示,中国大数据IT应用投资规模以五大行业最高,其中以互联网行业占比最高,占大数据IT应用投资规模的28.9%,其次是电信领域(19.9%),第三为金融领域(17.5%),政府和医疗分别为第四和第五。根据国际知名咨询公司麦肯锡的报告显示:在大数据应用综合价值潜力方面,信息技术、金融保险、政府及批发贸易四大行业潜力最高高。具体到行业内
2015-10-19 13:35:56 7506
转载 基于R语言的关联规则实现
1993年,Agrawal等人首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛应用。基于Apriori算法需要理解以下8个概念:项集,说白了就是组成购物篮中的商品集合;关联规则,一般记为
2015-10-17 21:02:48 2818
原创 多重共线性问题的几种解决方法
在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
2015-10-08 22:08:51 161856 5
《良心作品,绝对免费》利用Python进行数据分析(第二版)高清中文版英文版和源代码
2019-04-17
Tableau图表实战演练
2015-05-25
深入浅出统计学
2015-04-23
SPSS统计分析与数据挖掘(最新完整版)谢龙汉
2015-04-17
大嘴巴漫谈数据挖掘(完整版)
2015-03-10
RacerPro-2-0-Users-Guide-2-0-Preview.pdf
2013-12-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人