自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学习亦游戏

学习JAVA就像玩WOW,学好基础知识就像把号练到满级,做小程序就像单刷小副本,做大项目就像下团队副本,开新项目就像团队开荒,从五人到十人到二十五人,游戏难度随着我们的强力而增强,这亦是学习的乐趣吧!

  • 博客(8)
  • 资源 (4)
  • 收藏
  • 关注

转载 数据分析能力的8个等级

并非所有的分析方法作用都相同。和大多数软件解决方案一样,你会发现分析方法的能力也存在差异,从简单明了的到高级复杂。下面我们按照不同分析方法所能给人带来的智能程度,把分析能力划分为8个等级。1. 固定报表回答: 发生了什么?什么时候发生的?示例:月度或季度财务报表我们都见过报表,它们一般是定期生成

2013-07-10 14:16:04 1629

转载 解答数据挖掘初学者心中的疑惑

摘要: 本文中包含了数据挖掘初学者常见的问题,DMFighter对我以前回复的一些问题进行了精心的整理,在此也感谢他的辛勤工作。因为访问我博客的很多读者会不断重复提这些问题,所以我把DMFighter整理的帖子也转载过来,请初 ...本文中包含了数据挖掘初学者常见的问题,DMFighter对我以前回复的一些问题进行了精心的整理,在此也感谢他的辛勤工作。因

2013-07-09 19:47:55 1190 1

转载 数据分析达人博客

1.        沈浩老师中国传媒大学教授,这位老师给我深的印象就是比较喜欢旅游、爱摄影,除此之外更多的介绍还一下子想不起来。不过在博客分享了很多非常好的数据分析方法、数据可视化等。 2.        刘万祥ExcelPro   刘万祥老师,《Excel图表之道》、《用地图说话》作者。专注于最专业、有效的商务图表沟通方法,追求图表的有效沟通,和专业的商务气质。     3.

2013-07-09 19:44:16 1878

转载 数据挖掘中易犯的几大错误

摘要: 数据挖掘中易犯的11大错误包括:缺乏数据、太关注训练、只依赖一项技术、提错了问题、只靠数据来说话、使用了未来的信息、抛弃了不该忽略的案例、轻信预测、 试图回答所有问题、随便地进行抽样、太相信最佳模型。按照Elder博士的总结,这几大易犯错误包括:缺乏数据(Lack Data)太关注训练(Focus on Trainin

2013-07-09 18:28:56 1026

转载 数据挖掘与云计算—专访中科院何清博士

——专访中国科学院计算技术研究所何清 博士 重庆邮电大学数字通信 张诚     数字通信:当今世界处于一个数据爆炸时代,如何有效地从海量数据中找到有用、可理解的知识正考验人类智慧,我们是否拥有应对这一挑战的技术手段?    何清:人类社会信息正以“每18个月产生的数量等于过去几千年的总和”的速度不断增加,如此浩瀚的数据在带给人们大量信息的同时,也极大地增加了人们

2013-07-09 18:21:07 2306

原创 Mahout

What is Mahout, why need it?Apache Mahout 简介Apache Mahout问答Mahout安装图文版Mahout下载mahout百度Apache Mahout维基百科MapReduce百科

2013-07-08 17:35:42 625

转载 扒一扒这个数据挖掘行业

摘要: 我干这行有几年了,见了很多人,干了很多公司,爆一爆这个行业的状况吧……让后来人有所了解,也让猎头挖人挖的有点方向,起码和candidates聊天的时候不至于什么也不清楚谈不明白,不清楚价值,等等声明:本文指的是做数据挖掘这行,不是数据仓库我干这行有几年了,见了很多人,干了很多公司,爆一爆这个行业的状况吧……让后来人有所了解,也让猎头挖人挖

2013-07-07 20:17:33 1289 1

转载 overfitting(过度拟合)的概念

overfittingoverfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。

2013-07-06 19:39:08 24801

java搭建一个简单的WebService

搭建一个Web服务,实现一个服务端,怎么样来实现一个客户端,并相互传递数据。就算调用别人的服务时,也能知道大概是怎么样实现的。

2014-10-21

统计学方法与数据分析(上下册)

本书内容分为八个部分。共20章,分上、下两册,每册10章。各章均有大量习题。本书给出了大量的实际例子,这些例子涉及众多的学科和实际领域,但又不过于专门,容易理解。在大部分章节中都使用实例未引入主题,并把统计概念和这些非常实际的问题联系在一起进行讲解,深入浅出,从而可以避免许多人对统计所抱有的粗浅的感性认识,即认为统计仅仅是另一门数学课程。作者把统计数据的收集与分析过程总结成"四步法",并把"四步法"的讲解贯穿始终,利用实例逐步展开并阐明在设计调查研究或试验时所需要的统计技术和思路,然后讲解用直观、有效的"四步法"来收集并分析数据,非常利于初学者和实际工作人员抓住有关统计方法和模型的本质。书中提供了多种多样的图示,如正态概率图、盒形图、散点图、矩阵图和残差图等,通过这些图,读者可以一方面理解数据的特点和概括数据的方法,--方面进一步理解有关统计方法的基本思想和特点。作者很重视统计在解决实际问题中的作用,在全书中用许多篇幅讨论如何解释数据分析的结果,并专门用一章讲述了如何写数据分析报告。 本书适用于作为我国文科各专业的统计学引论教程。以及理工科各专业应用统计学课程的教材或教学参考书;也可作为有关方面实际工作人员的统计入门书。阅读本书不需要其他统计方面的基础,也不需要高等数学知识。 目录: 序言 第一部分引论 第一章什么是统计 1.1引言 1.2为什么学习统计 1.3当前统计的一些应用 1.4统计学家做什么 1.5质量和工序改进 1.6学生注意 1.7小结 补充练习 第二部分收集数据 第二章利用调查和科学研究来收集数据- 2.1引言 2.2调查 2.3科学研究 2.4观察研究 2.5数据整理:为概括和分析准备数据 2.6小结 第三部分概括数据 3.1引言 3.2计算器、计算机及软件系统 3.3单个变量数据的描述:图表法 3.4单个变量数据的描述:中心趋势的度量 3.5单个变虽数据的描述:变异性度量 3.6盒形图 3.7多变量数据的概括 3.8小结 重要公式 补充练习 第四部分工具和概念 第四章概率和概率分布 4.1如何应用概率进行推断 4.2确定一个事件的概率 4.3基本的事件关系和概率法则 4.4条件概率和独立性 4.5Bayes公式 4.6离散变最和连续变量 4.7离散随机变量的概率分布 4.8一个常用的离散随机变量:二项分布 4.9连续随机变量的概率分布 4.10一个常用的连续随机变量:正态分布 4.11随机抽样 4.12抽样分布 4.13二项分布的正态逼近 4.14Minitab指令 4.15小结 重要公式 补充练习 第五部分数据分析:中心值方差和比例 第五章关于总体中心值的推断 5.1引言和案例 5.2μ的估计 5.3估计μ时样本容量的选取 5.4关于μ的统计检验 5.5对于进行检验时样本容量的选取 5.6统计检验的显著性水十 5.7正态总体均值p的统计推断。未知 5.8关于中位数的推断 5.9小结 重要公式 补充练习 第六章两总体中心值的比较 6.1引言和案例 6.2关于μ1-μ2的推断:独立样本 6.3非参数推断方法:Wilcoxon秩和检验 6.4关于μ1-μ2的推断:成对数据 6.5非参数推断方法:Wilcoxon符号秩检验 6.6惟断μ1-μ2时样本容量的选取 6.7小结 重要公式 补充练习 第七章关于总体方差的推断 7.1引言和案例 7.2单个总体方差的估计和检验 7.3比较两个总体方差时的估计和检验 7.4比较多个总体方差时的检验 7.5小结 重要公式 补充练习 第八章两个以上总体的中心值的推断 8.1引言和案例 8.2两个以上总体均值的统计检验:方差分析 8.3完全随机化设计中观测值的模型 8.4方差分析条件的检查 8.5其他的分析方法:数据变换 8.6另一种非参数方法:Kruskal-Wallis检验 8.7小结 重要公式 补充练习 第九章多重比较 9.1引言和案例 9.2线性对照 9.3控制哪个错误率 9.4Fisher(费舍尔)最小显著差异法 9.5Tukey的W方法 9.6Student-Newman-Keuls方法 9.7Dunnett方法:处理组与对照组的比较 9.8Scheffe的S方法 9.9小结 重要公式 补充练习 第十章类型数据 10.1引言和案例 10.2总体比例π的推断 10.3两总体比例之差π1-π2的推断 10.4多比例的推断:卡方拟合优度检验 10.5Pokmn(泊松)分布- 10.6列联表:独立性检验和齐性检验 10.7柏关程度的度量 10.8几率和优比 10.9小结 重要公式 补充练习 第六部分数据分析:回归方法和模型的建立 第十一章线性回归和相关 11.1引言和案例 11.2估计模型中的参数 11.3回归参数的推断 11.4利用同归预测新的y值 11.5线性回归中拟合不足的考察 11.6逆回归问题(校准) 11.7相关 11.8小结 重要公式 补充练习 第十二章多元回归与一般线性模型 12.1引言和案例 12.2一般线性模型 12.3估计多元回归系数 12.4多元回归中的推断 12.5回归系数子集的检验 12.6用多元回归进行的预测 12.7比较几条回归线的斜率 12.8Logistic回归 12.9多元回归的一些理论结果(任选) 12.10小结 重要公式 补充练习 第十三章多元回归续论 13.1引言和案例 13.2变量的挑选(第一步) I3.3模型形式的确定(第二步) 13.4模型假设的检查(第三步) 13.5小结 重要公式 补充练习 第七部分试验设计与方差分析 第十四章试验和研究的设计概念 14.1引言 14.2研究的类型 14.3设计的试验:术语 14.4控制试验误差 14.5试验单元对处理的随机化 14.6确定重复试验的次数 14.7小结 第十五章标准设计的方差分析 15.1引言和案例 15.2单因子的完全随机化设计 15.3随机化完全区组设计 15.4拉丁方设计 15.5完全随机化设计中的因子处理结构 15.6随机化完全区组设计中的因子处理结构 15.7处理差异的估计和处理均值的比较 15.8小结 重要公式 补充练习 第十六章协方差分析 16.1引言和案例 16.2具有一个协变量的完全随机化设计 16.3外推问题 16.4多维协变量和更复杂的设计 16.5小结 补充练习 第十七章一些固定效应、随机效应和混合效应模型的方差分析 17.1引言和案例 17.2具有随机处理效应的单因子试验:随机效应模型 17.3随机效应模型的扩充 17.4混合效应模型 17.5计算期望均方的规则 17.6套抽样和裂区设计 17.7小结 补充练习 第十八章重复测量与交叉设计 18.1引言和案例 18.2有重复观测的单因子试验 18.3一个因子有重复观测的两因子试验 18.4交叉设计 18.5小结 补充练习 第十九章一些非平衡设计的方差分析 19.1引言和案例 19.2有一个或多个缺失观察值的随机化区组设计 19.3有缺失数据的拉丁方设计 19.4平衡不完全区组(BIB)设计 19.5小结 重要公式 补充练习 第二十章分析结果的传达和备案 20.1引言 20.2做好传达沟通工作所面临的困难 20.3传达的障碍:图形的歪曲 20.4传达的障碍:有偏抽样 20.5传达的障碍:样本容量 20.6为统计分析准备数据 20.7统计分析的指导原则和报告 20.8文档和结果的保存 20.9小结 补充练习 附录统计表 参考文献 索引 译后记

2013-12-29

WEKA入门用的银行数据集bank-data.arff

用于weka初入门学习,银行数据包括600实例,是data-bank.arff 文件,经过csv 处理之后的可经weka使用的文件。-The learn for weka early entry, bank data including 600 instances of the the the data-bank.arff file after csv after processing the file via weka.

2013-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除