数据分析概率及统计学基础

一.数据分析概述

1. 数据分析的概念

数据分析就是分析数据,从一大堆数据中提取你想要的信息。比较专业的回答:数据分析是有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。比较客观的回答:从行业的角度看,数据分析是基于某种行业目的,有目的地对数据进行收集、整理、加工和分析,提炼有价值信息的过程。
理解数据分析的三个方面:目标、方法、结果。

2. 数据挖掘的概念

   数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

3. 商业数据分析预测的本质

数据分析和业务是紧密联合在一起的,其目的就是满足商业决策的需求。预测未来发展情况,及早发现问题,对业务进行优化,制定最优的决策方案。

4. 数据分析的8个层次

常规报表
即席查询
多维分析
警报
统计分析
预报
预测型建模
优化

5. 大数据对传统小数据的拓展

(1)大数据与小数据,大量数据的区别与转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
(2).还有一个重要的区别是在用途上,过去的数据很大程度上停留在说明过去的状态,拿数据说话,实际上是用过去的数据说明过去,而大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。使数据从原来停留在说明过去变为驱动现在,我以为预测对企业的作用从两个方向:
A.宏观是对趋势的预测,给企业做大势分析,
B.微观是对个体的精准分析,给企业做个性化精准营销
(3).从结构上,大数据更多的体现在海量非结构化数据本身与处理方法的整合
大数据与小数据判断原则:
A.数据的量
B.数据的种类、格式
C.数据的处理速度
D.数据复杂度
(4).分析基础不同,大数据是只有在大规模数据的基础上才可以做的事情,而这需要有从量变到质变的过程,也正因为科技的创新在方法上打下基础,而利用互联网展开的新的生活与工作方式,让信息积累到可以引发变革的程度,而很多事情在小规模数据的基础上是无法完成的

6. 明确数据分析目标的意义

数据分析的关键在于设定目标,专业上叫做“有针对性”。
数据分析的前提是有清晰的目标。对数据分析目的的把握,是数据分析成败的关键。只有对数据分析的目的深刻理解,才能整理出完整的分析框架和思路,因为根据不同的分析目标所选择的分析方法是不同的。

7. 数据分析的过程

明确分析的目的和内容——>数据收集——>数据预处理——>数据分析——>数据展现——>撰写报告

8. 统计分析和数据挖掘的区别和联系

联系:都来源于统计基础理论,数据挖掘中也经常会用到统计分析方法,如主成分分析、回归分析
     区别:数据挖掘是统计分析方法的延伸和发展。统计分析常需要先做假设或判断,然后利用数据分析技术来验证假设是否成立。数据挖掘则不需要对数据内在的关系做任何假设和判断,而是让数据挖掘工具中的算法自动去寻找数据中隐藏的关系和规律。  统计分析在预测中的应用常表现为一个或者一组函数关系式,而数据挖掘在预测中有时候不会从结果中生产明确的函数关系,不知道哪些变量起作用,缺乏解释性,例如“神经网络”。
实际应用中,统计分析和数据挖掘是不可分割开来。

9. CRISP-DM

CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程". 
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段
是一种数据挖掘项目关系方法论。

10. SEMMA

SAS公司的数据挖掘项目实施方法论。对CRISP-DM方法中的数据准备和建模环节进行了拓展。
Sample  ─数据取样
Explore ─数据特征探索、分析和予处理
Modify  ─问题明确化、数据调整和技术选择
Model   ─模型的研发、知识的发现
Assess  ─模型和知识的综合解释和评价 

11. 数据分析中不同人员的角色与职责

一个大型数据分析项目会涉及行业学术专家、业务专家、数据分析师和IT人员。其中,业务专家提供业务目标,业务理解,并提供目前的营销和反馈信息;学术专家提供相关领域研究的最新进展,并进行维度分析;数据分析师进行数据理解、清洗和建模;IT人员提供数据支持和项目实施支持。



二、 描述性统计分析

1. 数据的计量尺度

定类尺度、定序尺度、定距尺度、定比尺度

分类变量:定类尺度  、定序尺度
连续性变量:定距尺度 、定尺度


2. 数据的集中趋势

  集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值。
常用的指标:平均数、中位数(分位数)、众数
平均值易受极端值影响,中位数和众数不受极端值影响。

3. 数据的离中趋势

离中趋势在统计学中是指一组数据向某一中心值分散的程度,它反映了各个数据远离中心点的程度。从侧面说明了集中趋势测度的代表程度。
常用指标:极差、四分位距、平均差、方差、标准差、离散系数

极差 =  最大值 - 最小值
四分位距 = (第三个四分位数 - 第一个四分位数) / 2
平均差 
方差 
· 标准差 (一般68%在一个标准差,95%在2个标准差,其余5%远离)
离散系数 (比较两组样本离中程度大小:离散系数越小,平均值越具有代表性)

4. 数据分布形态

一组或一系列数

  • 14
    点赞
  • 131
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
本书内容分为八个部分。共20章,分上、下两册,每册10章。各章均有大量习题。本书给出了大量的实际例子,这些例子涉及众多的学科和实际领域,但又不过于专门,容易理解。在大部分章节中都使用实例未引入主题,并把统计概念和这些非常实际的问题联系在一起进行讲解,深入浅出,从而可以避免许多人对统计所抱有的粗浅的感性认识,即认为统计仅仅是另一门数学课程。作者把统计数据的收集与分析过程总结成"四步法",并把"四步法"的讲解贯穿始终,利用实例逐步展开并阐明在设计调查研究或试验时所需要的统计技术和思路,然后讲解用直观、有效的"四步法"来收集并分析数据,非常利于初学者和实际工作人员抓住有关统计方法和模型的本质。书中提供了多种多样的图示,如正态概率图、盒形图、散点图、矩阵图和残差图等,通过这些图,读者可以一方面理解数据的特点和概括数据的方法,--方面进一步理解有关统计方法的基本思想和特点。作者很重视统计在解决实际问题中的作用,在全书中用许多篇幅讨论如何解释数据分析的结果,并专门用一章讲述了如何写数据分析报告。 本书适用于作为我国文科各专业的统计学引论教程。以及理工科各专业应用统计学课程的教材或教学参考书;也可作为有关方面实际工作人员的统计入门书。阅读本书不需要其他统计方面的基础,也不需要高等数学知识。 目录: 序言 第一部分引论 第一章什么是统计 1.1引言 1.2为什么学习统计 1.3当前统计的一些应用 1.4统计学家做什么 1.5质量和工序改进 1.6学生注意 1.7小结 补充练习 第二部分收集数据 第二章利用调查和科学研究来收集数据- 2.1引言 2.2调查 2.3科学研究 2.4观察研究 2.5数据整理:为概括和分析准备数据 2.6小结 第三部分概括数据 3.1引言 3.2计算器、计算机及软件系统 3.3单个变量数据的描述:图表法 3.4单个变量数据的描述:中心趋势的度量 3.5单个变虽数据的描述:变异性度量 3.6盒形图 3.7多变量数据的概括 3.8小结 重要公式 补充练习 第四部分工具和概念 第四章概率概率分布 4.1如何应用概率进行推断 4.2确定一个事件的概率 4.3基本的事件关系和概率法则 4.4条件概率和独立性 4.5Bayes公式 4.6离散变最和连续变量 4.7离散随机变量的概率分布 4.8一个常用的离散随机变量:二项分布 4.9连续随机变量的概率分布 4.10一个常用的连续随机变量:正态分布 4.11随机抽样 4.12抽样分布 4.13二项分布的正态逼近 4.14Minitab指令 4.15小结 重要公式 补充练习 第五部分数据分析:中心值方差和比例 第五章关于总体中心值的推断 5.1引言和案例 5.2μ的估计 5.3估计μ时样本容量的选取 5.4关于μ的统计检验 5.5对于进行检验时样本容量的选取 5.6统计检验的显著性水十 5.7正态总体均值p的统计推断。未知 5.8关于中位数的推断 5.9小结 重要公式 补充练习 第六章两总体中心值的比较 6.1引言和案例 6.2关于μ1-μ2的推断:独立样本 6.3非参数推断方法:Wilcoxon秩和检验 6.4关于μ1-μ2的推断:成对数据 6.5非参数推断方法:Wilcoxon符号秩检验 6.6惟断μ1-μ2时样本容量的选取 6.7小结 重要公式 补充练习 第七章关于总体方差的推断 7.1引言和案例 7.2单个总体方差的估计和检验 7.3比较两个总体方差时的估计和检验 7.4比较多个总体方差时的检验 7.5小结 重要公式 补充练习 第八章两个以上总体的中心值的推断 8.1引言和案例 8.2两个以上总体均值的统计检验:方差分析 8.3完全随机化设计中观测值的模型 8.4方差分析条件的检查 8.5其他的分析方法:数据变换 8.6另一种非参数方法:Kruskal-Wallis检验 8.7小结 重要公式 补充练习 第九章多重比较 9.1引言和案例 9.2线性对照 9.3控制哪个错误率 9.4Fisher(费舍尔)最小显著差异法 9.5Tukey的W方法 9.6Student-Newman-Keuls方法 9.7Dunnett方法:处理组与对照组的比较 9.8Scheffe的S方法 9.9小结 重要公式 补充练习 第十章类型数据 10.1引言和案例 10.2总体比例π的推断 10.3两总体比例之差π1-π2的推断 10.4多比例的推断:卡方拟合优度检验 10.5Pokmn(泊松)分布- 10.6列联表:独立性检验和齐性检验 10.7柏关程度的度量 10.8几率和优比 10.9小结 重要公式 补充练习 第六部分数据分析:回归方法和模型的建立 第十一章线性回归和相关 11.1引言和案例 11.2估计模型中的参数 11.3回归参数的推断 11.4利用同归预测新的y值 11.5线性回归中拟合不足的考察 11.6逆回归问题(校准) 11.7相关 11.8小结 重要公式 补充练习 第十二章多元回归与一般线性模型 12.1引言和案例 12.2一般线性模型 12.3估计多元回归系数 12.4多元回归中的推断 12.5回归系数子集的检验 12.6用多元回归进行的预测 12.7比较几条回归线的斜率 12.8Logistic回归 12.9多元回归的一些理论结果(任选) 12.10小结 重要公式 补充练习 第十三章多元回归续论 13.1引言和案例 13.2变量的挑选(第一步) I3.3模型形式的确定(第二步) 13.4模型假设的检查(第三步) 13.5小结 重要公式 补充练习 第七部分试验设计与方差分析 第十四章试验和研究的设计概念 14.1引言 14.2研究的类型 14.3设计的试验:术语 14.4控制试验误差 14.5试验单元对处理的随机化 14.6确定重复试验的次数 14.7小结 第十五章标准设计的方差分析 15.1引言和案例 15.2单因子的完全随机化设计 15.3随机化完全区组设计 15.4拉丁方设计 15.5完全随机化设计中的因子处理结构 15.6随机化完全区组设计中的因子处理结构 15.7处理差异的估计和处理均值的比较 15.8小结 重要公式 补充练习 第十六章协方差分析 16.1引言和案例 16.2具有一个协变量的完全随机化设计 16.3外推问题 16.4多维协变量和更复杂的设计 16.5小结 补充练习 第十七章一些固定效应、随机效应和混合效应模型的方差分析 17.1引言和案例 17.2具有随机处理效应的单因子试验:随机效应模型 17.3随机效应模型的扩充 17.4混合效应模型 17.5计算期望均方的规则 17.6套抽样和裂区设计 17.7小结 补充练习 第十八章重复测量与交叉设计 18.1引言和案例 18.2有重复观测的单因子试验 18.3一个因子有重复观测的两因子试验 18.4交叉设计 18.5小结 补充练习 第十九章一些非平衡设计的方差分析 19.1引言和案例 19.2有一个或多个缺失观察值的随机化区组设计 19.3有缺失数据的拉丁方设计 19.4平衡不完全区组(BIB)设计 19.5小结 重要公式 补充练习 第二十章分析结果的传达和备案 20.1引言 20.2做好传达沟通工作所面临的困难 20.3传达的障碍:图形的歪曲 20.4传达的障碍:有偏抽样 20.5传达的障碍:样本容量 20.6为统计分析准备数据 20.7统计分析的指导原则和报告 20.8文档和结果的保存 20.9小结 补充练习 附录统计表 参考文献 索引 译后记
数据分析是指通过收集、清洗、转换和建模数据等一系列过程,以揭示数据中潜在的规律和趋势,并从中提取出有价值的信息和见解的过程。统计学数据分析的重要工具,通过概率论和数理统计等方法,帮助我们理解和解释数据中的随机变动和不确定性。 数据分析统计学PDF是一种电子书格式,其中介绍了数据分析统计学的基本概念、原则、方法和工具。这类PDF可以作为学习、研究和应用数据分析统计学的参考资料。 一本优质的数据分析统计学PDF,通常会包含以下内容: 1. 数据分析统计学的基本概念:介绍数据分析统计学的定义、范围、目标等,帮助读者建立起对这两个领域的基本认识和理解。 2. 数据的收集和整理:介绍如何有效地收集和整理数据,包括数据的采集方法、数据清洗和转换等,在数据分析的过程中,高质量的数据是非常重要的。 3. 统计学基础知识:介绍概率论、数理统计统计学的基本概念和理论,例如随机变量、概率分布、假设检验等,这些知识为后续的数据分析提供了理论基础。 4. 数据分析方法和工具:介绍常用的数据分析方法和工具,例如描述性统计分析、推断统计分析、回归分析、时间序列分析等,以及在数据分析中常用的软件和编程语言,如Excel、Python、R等。 5. 数据可视化:介绍常用的数据可视化方法和工具,如图表、柱状图、散点图等,帮助读者直观地理解和展示数据分析的结果。 综上所述,数据分析统计学PDF是一种方便学习和应用数据分析统计学的电子书格式。通过学习这类PDF,读者可以系统地掌握和应用数据分析统计学的基本知识和技能,从而在实际工作和研究中更好地处理和分析数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值