数据分析概率及统计学基础

这篇博客详细介绍了数据分析的基础,包括数据分析概述、描述性统计分析、抽样估计、假设检验和方差分析等内容。强调了数据分析在商业决策中的作用,探讨了统计分析与数据挖掘的关系,详细阐述了各种统计方法如正态分布、假设检验、方差分析和简单线性回归分析的应用。
摘要由CSDN通过智能技术生成

一.数据分析概述

1. 数据分析的概念

数据分析就是分析数据,从一大堆数据中提取你想要的信息。比较专业的回答:数据分析是有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。比较客观的回答:从行业的角度看,数据分析是基于某种行业目的,有目的地对数据进行收集、整理、加工和分析,提炼有价值信息的过程。
理解数据分析的三个方面:目标、方法、结果。

2. 数据挖掘的概念

   数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

3. 商业数据分析预测的本质

数据分析和业务是紧密联合在一起的,其目的就是满足商业决策的需求。预测未来发展情况,及早发现问题,对业务进行优化,制定最优的决策方案。

4. 数据分析的8个层次

常规报表
即席查询
多维分析
警报
统计分析
预报
预测型建模
优化

5. 大数据对传统小数据的拓展

(1)大数据与小数据,大量数据的区别与转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
(2).还有一个重要的区别是在用途上,过去的数据很大程度上停留在说明过去的状态,拿数据说话,实际上是用过去的数据说明过去,而大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。使数据从原来停留在说明过去变为驱动现在,我以为预测对企业的作用从两个方向:
A.宏观是对趋势的预测,给企业做大势分析,
B.微观是对个体的精准分析,给企业做个性化精准营销
(3).从结构上,大数据更多的体现在海量非结构化数据本身与处理方法的整合
大数据与小数据判断原则:
A.数据的量
B.数据的种类、格式
C.数据的处理速度
D.数据复杂度
(4).分析基础不同,大数据是只有在大规模数据的基础上才可以做的事情,而这需要有从量变到质变的过程,也正因为科技的创新在方法上打下基础,而利用互联网展开的新的生活与工作方式,让信息积累到可以引发变革的程度,而很多事情在小规模数据的基础上是无法完成的

6. 明确数据分析目标的意义

数据分析的关键在于设定目标,专业上叫做“有针对性”。
数据分析的前提是有清晰的目标。对数据分析目的的把握,是数据分析成败的关键。只有对数据分析的目的深刻理解,才能整理出完整的分析框架和思路,因为根据不同的分析目标所选择的分析方法是不同的。

7. 数据分析的过程

明确分析的目的和内容——>数据收集——>数据预处理——>数据分析——>数据展现——>撰写报告

8. 统计分析和数据挖掘的区别和联系

联系:都来源于统计基础理论,数据挖掘中也经常会用到统计分析方法,如主成分分析、回归分析
     区别:数据挖掘是统计分析方法的延伸和发展。统计分析常需要先做假设或判断,然后利用数据分析技术来验证假设是否成立。数据挖掘则不需要对数据内在的关系做任何假设和判断,而是让数据挖掘工具中的算法自动去寻找数据中隐藏的关系和规律。  统计分析在预测中的应用常表现为一个或者一组函数关系式,而数据挖掘在预测中有时候不会从结果中生产明确的函数关系,不知道哪些变量起作用,缺乏解释性,例如“神经网络”。
实际应用中,统计分析和数据挖掘是不可分割开来。

9. CRISP-DM

CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程". 
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段
是一种数据挖掘项目关系方法论。

10. SEMMA

SAS公司的数据挖掘项目实施方法论。对CRISP-DM方法中的数据准备和建模环节进行了拓展。
Sample  ─数据取样
Explore ─数据特征探索、分析和予处理
Modify  ─问题明确化、数据调整和技术选择
Model   ─模型的研发、知识的发现
Assess  ─模型和知识的综合解释和评价 

11. 数据分析中不同人员的角色与职责

一个大型数据分析项目会涉及行业学术专家、业务专家、数据分析师和IT人员。其中,业务专家提供业务目标,业务理解,并提供目前的营销和反馈信息;学术专家提供相关领域研究的最新进展,并进行维度分析;数据分析师进行数据理解、清洗和建模;IT人员提供数据支持和项目实施支持。



二、 描述性统计分析

1. 数据的计量尺度

定类尺度、定序尺度、定距尺度、定比尺度

分类变量:定类尺度  、定序尺度
连续性变量:定距尺度 、定尺度


2. 数据的集中趋势

  集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值。
常用的指标:平均数、中位数(分位数)、众数
平均值易受极端值影响,中位数和众数不受极端值影响。

3. 数据的离中趋势

离中趋势在统计学中是指一组数据向某一中心值分散的程度,它反映了各个数据远离中心点的程度。从侧面说明了集中趋势测度的代表程度。
常用指标:极差、四分位距、平均差、方差、标准差、离散系数

极差 =  最大值 - 最小值
四分位距 = (第三个四分位数 - 第一个四分位数) / 2
平均差 
方差 
· 标准差 (一般68%在一个标准差,95%在2个标准差,其余5%远离)
离散系数 (比较两组样本离中程度大小:离散系数越小,平均值越具有代表性)

4. 数据分布形态

一组或一系列数

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值