@TOC不懂统计和数据分析讲的是什么?看这篇就够了
python爬虫人工智能大数据 今天
以下文章来源于Ray的数据分析自习室 ,作者Ray
Ray的数据分析自习室
Ray的数据分析自习室
数据干货 | 商业评论 | 职业发展
1 数据分析概述
数据分析是基于某种业务目的,有目的的处理数据,提取有价值的信息,解决各种业务问题的过程。
目的/出发点:设立目标或业务需求,明确问题
方法:根据不同场景选定分析方法
结果:目标解释或业务应用(to do),创造价值
1.1 数据分析流程
目的和内容:明确项目整体框架或业务问题
数据收集:根据假设或问题树收集相应数据,要求数据准确、有效;SQL、业务调整信息
数据预处理:检验-清理,可比(例如标准化、得分转换等),论证
数据分析:方法、工具的选取
数据表达:图表
数据报告:结论、建议&解决方案
1.2 数据分析方法
预处理加工:描述性统计分析(数据分布、数据趋势)、相关分析(正负相关、拟合、相关系数)
基于数理统计:方差分析、回归分析、因子分析
数据挖掘:聚类(层次分析、K均值、模糊聚类、高斯回归)、分类(决策树、神经网络、贝叶斯分类、SVM、随机森林)、回归分析(线性回归、logistic回归)
1.3 数据分析工具
Excel-SQL、R、Python、BI、HADOOP、Spark…
2 数据趋势
2.1 计量尺度
计量尺度是刻画或比较数据的标准,分为四类:
定类尺度:分类,例如性别;可用 = 或 != 进行运算
定序尺度:有序列分类,例如职称级别(讲师、副教授、教授);可用=、!= 或 <、>进行运算
定距尺度:例如温度;可用=、!= 或 <、>或 + 、- 进行运算
定比尺度:可用于数据大小、属性、加减乘除等;可用=、!= 或 <、>或 + 、- 、*、/ 进行运算
其中,定类、定序用于刻画定性数据;定距、定比用于刻画定量数据。
2.2 数据集中趋势
平均数:算法平均数、加权平均数、几何算法平均数(几何平均数是n个变量值连乘积的n次方根:对比率、指数等进行平均;复利下的平均年利率;连续作业的车间求产品的平均合格率)
众数:频数最大的数据
分位数:1/4;中位数;3/4位数
2.3 数据离中趋势
极值:d = max - min,可粗略检查产品质量和稳定程度
四分位点内距:IQR = Q_3 - Q_1,反映数据中间部分的差距
方差variance:观察值的离均差平方和的算术平均数;刻画数据的波动程度和稳定性;区分总体方差和样本方差
标准差standard deviation:方差的平方根;与原始数据单位相同,较方差更易于解释
变异系数/离散系数cofficient of variation:标准差/均值 * 100;百分比形式;去量纲、比较多组数据波动程度
3 数据分布和展示
3.1 数据分布
数据分布用来描述变量的概率分布,即数据在各个区间分布的多少。
可用数据偏态、数据峰度对数据分布进行描述。
3.1.1 数据偏态
对称分布:平均数=中位数=众数
非对称分布时即存在偏态,分为右向偏态和左向偏态
右向偏态:平均数>众数,极端值在右侧,曲线向右延伸
左向偏态:平均数<众数,极端值在左侧,曲线向左延伸
偏态的描述方法:偏态系数SK(=0对称分布,>0正偏态,<0负偏态)
3.2.1 数据峰度
数据峰度用于刻画数据的尖峭程度。
标准峰度:正态分布对应的标准峰度
尖顶峰度:数据在众数周围分布较集中
平顶峰度:数据在众数周围分布相对分散,扁平
峰度描述方法:峰度系数K(=0标准峰度,>0尖顶峰度分布,<0平顶峰度分布)
3.2 数据展示
条形图:分组后统计结果的展示
扇形图:各类别占比的分布
折线图:表示统计数据的增长变化,主要用于展示时间序列的数据
直方图:用于表示数据的分布情况
盒式图:显示数据的离散情况,中位数、四分位数、上下边缘、异常值(四分位与边缘间为温和异常值,上下边缘以外为异常值)
上下边缘不是极大极小值,上边缘 = Q3 + 1.5(Q3-Q1),下边缘 = Q1 - 1.5(Q3-Q1)
使用箱式图判断异常值无需假设数据服从正态分布(相比3sigma方法),并且数据抗耐高
4 数理统计基础知识
4.1 随机变量及其概率描述
随机现象:具有偶然性,并不总出现相同结果的事件
随机事件:随机现象的某些基本结果组成的集合(不能确定是否发生,多次试验结果具有规律性),使用随机变量对随机事件的可能性进行描述
概率:预测事件发生的可能性,试验中事件的发生次数/总试验次数
随机变量的分布
离散型:有限个点或可列出,分布类型包含二项分布、泊松分布
连续型:区间;均匀分布、指数分布、正态分布
条件概率:B发生时A发生的概率=AB同时发生概率/B发生的概率
相互独立事件:P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ,例如有放回抽样
4.2 常见分布类型介绍
正态分布
正态分布是对称的,概率曲线最高点在均值处,标准正态分布是指均值为0,标准差为1的正态分布、
3sigma准则:质量检测、剔除异常值
z标准化:将正态分布转化为标准正态分布
卡方分布
用于卡方检验
若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布
t分布
t分布是一簇曲线,其形态变化与n(确切地说与自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线。
t检验、独立性检验等
F分布
用于方差分析、方差检验
4.3 大数定律&中心极限定理
大数定律
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。
中心极限定理
对于任何分布的总体,若样本容量较大,能够用正态概率分布来近似样本均值的抽样分布。
通常样本容量达到30(样本中的单位数达到30)即可满足定理的大样本条件。
5 抽样估计
5.1 抽样概念引入
抽样:使用局部估计整体
总体相关概念
总体:根据研究目标确定的对象全体,未必是全量用户
总体指标:均值、比重结构等
个体:总体中的每个元素,具有同质性(满足同一研究目标)、大量、差异性;个体总数称为总体容量N
样本相关概念
样本:随机从总体中抽取的部分个体
样本指标:样本均值、样本方差
样本容量:样本中的个体数量
抽样估计:利用样本指标估计总体值班表
要求:随机性、独立性
5.2 区间估计
相关指标
置信区间:精确性
置信系数:可靠性
显著性水平:alpha,表示不可靠概率
检验统计量
根据样本容量不同、估计均值或比例的不同,选取不同的检验统计量
大样本——z分布
小样本——t分布
6 假设检验
6.1 概念
通过样本数据检验对总体的假设。
基本思想:反证法,基于小概率时间不发生的准则和总体的假设,根据样本数据获得的样本统计量分布,得到抽样过程中的极端或错误现象的小概率时间,从而做出对假设的否定判断。
假设:原假设、备择假设
6.2 假设检验方法
建立假设:通常希望证伪的假设作为原假设,反之为备择假设
选择检验统计量:
确定拒绝域:给定显著性水平,从而确定拒绝域
计算检验统计量,做出判断:计算结果落在拒绝域中,则表明小概率事件发生,拒绝原假设
6.3 常见检验统计量
Z检验:统计量满足正态分布。用于单个正态总体均值检验;两个正态总体均值之差检验,方差已知;
t检验:统计量满足t分布。单个正态总体均值检验,方差未知;两个正态总体均值/比例检验,方差相等但未知(同一群体的两次实验);两个正态总体均值/比例检验,方差不等且未知(AB测试)
卡方检验:统计量服从卡方分布,样本来自正态总体,用于单个正态总体方差检验;
F检验:统计量服从F分布,样本数据来自两个正态总体,用于两个正态总体方差检验。
Z、t检验用于均值或比例检验,卡方和F检验用于方差检验
7 方差分析
方差分析用来描述多个总体的差异性,检验多个总体均值是否相同。
通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著性影响。
精选好文:
重磅 !开源一个机器学习/情感分析实战项目(附源码/教程)
分享Django+Linux+Uwsgi+Nginx项目部署文档
python自动化测试技术打造升职加薪利器
110道python面试题
我去面试python岗位了
一幅漫画看透零基础转Python学习路线
工作必备,耗时3天总结踩坑写的超实用前端教程
python爬虫人工智能大数据公众号
微信扫一扫
关注该公众号
欢迎使用Markdown编辑器
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
新的改变
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:
- 全新的界面设计 ,将会带来全新的写作体验;
- 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
- 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
- 全新的 KaTeX数学公式 语法;
- 增加了支持甘特图的mermaid语法1 功能;
- 增加了 多屏幕编辑 Markdown文章功能;
- 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
- 增加了 检查列表 功能。
功能快捷键
撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G
合理的创建标题,有助于目录的生成
直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC
语法后生成一个完美的目录。
如何改变文本的样式
强调文本 强调文本
加粗文本 加粗文本
标记文本
删除文本
引用文本
H2O is是液体。
210 运算结果是 1024.
插入链接与图片
链接: link.
图片:
带尺寸的图片:
居中的图片:
居中并且带尺寸的图片:
当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。
如何插入一段漂亮的代码片
去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片
.
// An highlighted block
var foo = 'bar';
生成一个适合你的列表
- 项目
- 项目
- 项目
- 项目
- 项目1
- 项目2
- 项目3
- 计划任务
- 完成任务
创建一个表格
一个简单的表格是这么创建的:
项目 | Value |
---|---|
电脑 | $1600 |
手机 | $12 |
导管 | $1 |
设定内容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文本居中 | 第二列文本居右 | 第三列文本居左 |
SmartyPants
SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks | 'Isn't this fun?' | ‘Isn’t this fun?’ |
Quotes | "Isn't this fun?" | “Isn’t this fun?” |
Dashes | -- is en-dash, --- is em-dash | – is en-dash, — is em-dash |
创建一个自定义列表
-
Markdown
- Text-to- HTML conversion tool Authors
- John
- Luke
如何创建一个注脚
一个具有注脚的文本。2
注释也是必不可少的
Markdown将文本转换为 HTML。
KaTeX数学公式
您可以使用渲染LaTeX数学表达式 KaTeX:
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多关于的信息 LaTeX 数学表达式here.
新的甘特图功能,丰富你的文章
- 关于 甘特图 语法,参考 这儿,
UML 图表
可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:
这将产生一个流程图。:
- 关于 Mermaid 语法,参考 这儿,
FLowchart流程图
我们依旧会支持flowchart的流程图:
- 关于 Flowchart流程图 语法,参考 这儿.
导出与导入
导出
如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。
导入
如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。
注脚的解释 ↩︎