数据分析竞赛之错题总结（卷1）

最新推荐文章于 2024-08-20 17:37:00 发布

lingdangbell

最新推荐文章于 2024-08-20 17:37:00 发布

阅读量210

点赞数

文章标签：数据分析数据挖掘

本文链接：https://blog.csdn.net/lingdangbell/article/details/133378057

版权

本文探讨了探索性和描述性数据分析的区别，Excel中的相对地址和绝对地址应用，战略分析工具如SWOT、内部/外部因素评价法，以及经济概念如边际效用和非线性规划。同时涉及了数据处理、统计分析和计量单位转换等内容。

摘要由CSDN通过智能技术生成

1、探索性数据分析和描述性数据分析

对数据分析的目标不是非常明确，针对性不是非常清晰时，需要做探索性数据分析。

探索性分析，不在限于简单的数据统计分类等，更多地需要借助可视化的手段，进一步地去观看数据的分布规律，发现更深层次的数据价值。
描述性分析，主要是为了获得对数据的初步感知，针对一些简单观察得不到的结论。

描述性研究和探索性一样都没有明确的假设，都是从观察入手来研究社会现象和社会问题，但是两者具有明显的差别。首先，描述性研究在研究的时间地点、研究内容、研究角度、研究对象的选择等方面比探索性研究更明确具体。其次，描述性研究在方法上与探索性研究有较大的差别。这种差别突出地表现在描述性研究所具有的系统性、结构性和全面性上。描述性研究常常采取严格的随机抽样方法来选择研究对象，研究样本的规模要比探索性研究中的规模大得多。描述性研究中资料的收集主要采用以封闭式问题为主，以自填、邮寄或结构式访问等方式进行的问卷调查；所得的资料必须经过统计处理，得出以数量形式为主的各种结果，并将这些结果和结论推论到总体。即用样本资料来描述总体的面貌。

2、excel中的相对地址和绝对地址

1、相对地址

在使用单元格时，如果直接写单元格的地址，例如B1、B2、C3这样，就属于相对地址。当公式中引用了相对地址时，随着移动会改变引用的单元格。

在Excel表格的E2单元格中，写上公式“=B2”，向下拖动到E3时，E3单元格中的公式是“=B3”，再往下拖动到E4时，E4单元格中的公式是“=B4”。

2、绝对地址

在使用某个固定的单元格时，需要在行号和列号之前加上“$”符号，例如$B$1、$B$2、$C$3这样，就属于绝对地址。当公式中引用的是绝对地址，随着移动不会改变引用的单元格。

在Excel表格的F2单元格中，写上公式“=$B$2”，向下拖动到F3时，F3单元格中的公式是“=$B$2”，再往下拖动到F4时，F4单元格中的公式是“=$B$2”。

注意：单元格的地址包含行和列，可以使用“$”符号单独锁定行或者列。

单独将行锁定，则行是绝对地址，列是相对地址，行不变，列变。例如B$2、C$2、D$2等。

单独将列锁定，则列是绝对地址，行是相对地址，列不变，行变。例如$B2、$B3、$B4等。

3、战略分析也就是计划

战略分析即通过资料的收集和整理分析组织的内外环境，包括组织诊断和环境分析两个部分。战略分析包括确定企业的使命和目标；了解企业所处的环境变化，这些变化将带来机会还是威胁。

战略分析工具是企业战略咨询及管理咨询实务中经常使用的一些分析方法。

（一）SWOT分析法：SWOT是一种分析方法，用来确定企业本身的竞争优势（strength），竞争劣势（weakness），机会(opportunity)和威胁（threat），从而将公司的战略与公司内部资源、外部环境有机结合。因此，清楚的确定公司的资源优势和缺陷，了解公司所面临的机会和挑战，对于制定公司未来的发展战略有着至关重要的意义。

（二）内部因素评价法：又称做为内部因素评价矩阵（IFE矩阵）

（三）外部要素评价法：又称做外部因素评价矩阵（EFE矩阵）

（四）竞争态势评价法：又称做竞争态势矩阵（CPM矩阵）

（五）波士顿矩阵法：波士顿矩阵又称市场增长率-相对市场份额矩阵、波士顿咨询集团法、四象限分析法、产品系列结构管理法（BCG）等。

4、边际效用：

“边际效用在微观经济学中，又称为边际效应，是指每新增（或减少）一个单位的商品或服务，它对商品或服务的收益增加（或减少）的效用。在经济学的领域中，通常认为随着商品或服务的量增加，边际效用将会逐步减少。”

经济学通常认为，随着商品或服务的量增加，边际效用将会逐步减少，称为边际效应递减定律。

边际效用是指某种物品的消费量每增加一单位所增加的满足程度，针对的是消费者；而边际报酬（marginal returns）则对应生产者。同样，随着商品或服务的量增加，边际报酬也将会逐步减少，称为边际报酬递减定律

5、产品运营指标

·活跃用户-运营状况

·流失用户-产品对用户的保留能力、是否有淘汰风险

·回访用户-分析产品对挽留流失用户的能力

·留存用户-吸引力

用户增长-产品运营指标 - 知乎

5、可视化

定类数据的展示方法:饼图、条形图、三线表

定序数据的展示方法:累加表、累加图

定距数据的展示方法:三线表、直方图、曲线图等

定性数据的展示方法：饼图、条形图和环形图

6、企业质量指标包括产品合格率指标和库存率指标

7、抽样误差

样本容量越大，抽样误差越小，二者成反比

抽样极限误差与置信度成正比关系，抽样极限误差数值越大，置信度越大。

各种抽样方法的抽样误差一般是：整群抽样≥单纯随机抽样≥系统抽样≥分层抽样

8、偏态

偏态分布宜用中位数描述其分布的集中趋势。偏态分布是与“正态分布”相对，分布曲线左右不对称的数据次数分布，是连续随机变量概率分布的一种。可以通过峰度和偏度的计算，衡量偏态的程度。可分为正偏态和负偏态，前者曲线右侧偏长，左侧偏短；后者曲线左侧偏长，右侧偏短。
正偏态分布是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时，若M>Me>Mo时，即平均数大于中数，中数又大于众数，则数据的分布是属于正偏态分布。正偏态分布的特征是曲线的最高点偏向X轴的左边，位于左半部分的曲线比正态分布的曲线更陡，而右半部分的曲线比较平缓，并且其尾线比起左半部分的曲线更长，无限延伸直到接近X轴。

右偏时一般算术平均数>中位数>众数，左偏时相反，即众数>中位数>平均数。正态分布三者相等。

百度百科-验证百度百科是一部内容开放、自由的网络百科全书，旨在创造一个涵盖所有领域知识，服务所有互联网用户的中文知识性百科全书。在这里你可以参与词条编辑，分享贡献你的知识。https://baike.baidu.com/item/%E5%81%8F%E5%BA%A6/8626571?fr=ge_ala9、z分布 z检验

Z分布与t分布，傻傻分不清楚？

什么是z分布、z检验？ – 数据小兵博客

F检验

F检验是通过比较两组不同方法下数据的偏差，以确定它们的精密度是否存在显著性差异。即将同一欲测试样用标准方法和所选用的仪器分析方法，分别进行多次测定。

计算的F值与查表得到的F表值比较，如果

F < F表表明两组数据没有显著差异；

F ≥ F表表明两组数据存在显著差异。

通常的F检验例子包括：

假设一系列服从正态分布的母体，都有相同的标准差。这是最典型的F检验，该检验在方差分析（ANOVA）中也非常重要。
假设一个回归模型很好地符合其数据集要求，检验多元线性回归模型中被解释变量与解释变量之间线性关系在总体上是否显著。
F检验对于数据的正态性非常敏感，因此在检验方差齐性的时候，Levene检验, Bartlett检验或者Brown–Forsythe检验的稳健性都要优于F检验。 F检验还可以用于三组或者多组之间的均值比较，但是如果被检验的数据无法满足均是正态分布的条件时，该数据的稳健型会大打折扣，特别是当显著性水平比较低时。但是，如果数据符合正态分布，而且alpha值至少为0.05，该检验的稳健型还是相当可靠的。
若两个母体有相同的方差（方差齐性），那么可以采用F检验，但是该检验会呈现极端的非稳健性和非常态性， [2]

可以用t检验、巴特勒特检验等取代。

10、换算

1B（Byte字节）=8bit。

1KB (Kilobyte 千字节)=1024B。

1MB (Mega byte 兆字节简称“兆”)=1024KB。

1GB (Giga byte 吉字节又称“千兆”)=1024MB。

1TB (Tera byte 万亿字节太字节)=1024GB，其中1024=2^10 ( 2 的10次方)。

11、最大似然法

数学估计方法——最小方差、极大似然与贝叶斯 - 知乎

一文了解最大似然估计(Maximum Likelihood Estimation)

12、非线性规划问题

非线性规划 - 简书

lingdangbell

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析竞赛之错题总结（卷1）

正偏态分布的特征是曲线的最高点偏向X轴的左边，位于左半部分的曲线比正态分布的曲线更陡，而右半部分的曲线比较平缓，并且其尾线比起左半部分的曲线更长，无限延伸直到接近X轴。述其分布的集中趋势。在Excel表格的F2单元格中，写上公式“=$B$2”，向下拖动到F3时，F3单元格中的公式是“=$B$2”，再往下拖动到F4时，F4单元格中的公式是“=$B$2”。在Excel表格的E2单元格中，写上公式“=B2”，向下拖动到E3时，E3单元格中的公式是“=B3”，再往下拖动到E4时，E4单元格中的公式是“=B4”。
复制链接

扫一扫