统计学基础理论知识

最新推荐文章于 2024-07-23 01:00:00 发布

AI designer

最新推荐文章于 2024-07-23 01:00:00 发布

阅读量2.5k

点赞数 5

分类专栏：概率与统计文章标签：统计学数据挖掘

本文链接：https://blog.csdn.net/skyworthfly/article/details/101766441

版权

3 篇文章 0 订阅

订阅专栏

1.假说：来解释事件的一种假设，自古以来，人们喜欢用假说来解释无法知晓原理的事件

随着时代的发展，人们逐渐发现通过长期观测来总结规律，能够更好的解释事件

2.统计学是收集数据、分析数据最终由数据得到结论的方法

3. 《统计学》分为描述统计、推断统计。描述统计指对数据的收集、处理、可视化和描述等。

推断统计指利用样本数据推断总体特征；

其核心思想为从总体中抽取样本构造适当的统计量，由样本性质去推断关于总体的性质；

推断统计会用到概率论和数理统计的知识，且以数理统计知识为主；

推断统计的中心内容为抽样分布、参数估计、假设检验这3个。

4.统计学：实质是无法直接观测到全体，从而需要采用抽样的方法，通过样本的特性来推断总体。

在大数据时代，当n大于30的时候我们就认为样本量足够大可以套用大数定律了，和现在所谓的大数据比起来真是小巫见大巫。数据量的爆发式增长和硬件存储技术的发展让大量数据成为了潜力无穷的财富：

如：

这是某个事件的热度随着时间推移的变化趋势，说明此事件越来越多的被人们关注

在统计中，有几个关键问题，包含如下：

构造并解决“未定义”的问题。统计学家往往很喜欢结构良好的数据和明确的统计问题，大数据带来了许多机会，但这些似乎都不在“传统的标准的”统计学框架中，统计学家需要花费力气把未知问题转化为可用统计方法方便处理的问题。
分析不同结构的数据。绝大部分现有的统计方法都局限在处理数字数据上，尽管现在已经有人在做函数数据或者文本数据，但还需要更多启发性的思考。
描述性统计的统计。这可能有些不太好理解，当处理大量问题时，很有可能会有很多的统计结果在其中，如何从中抽取有用的信息？比如当有数以千计的相关关系时，当有数以千计的方差分析时。从这些统计结果种提取我们想要的足够多的信息。
大多数还是极少数。这两个方面都会有重要的应用，需要有对这两个方面的特征获取和模式识别的基本方法。

与传统的统计学相比，数据挖掘技术存在以下几点不同：

思想不一样。数据挖掘偏向计算机学科，所关注的某些领域和统计学家所关注的有很大不同。不一定要有精确的理论支撑，只要是有用的，能够解决问题的方式，都可以用来处理数据。而统计学是一门比较保守的学科，所沿用的模型一定要强调有理论依据（数学原理或经济学理论）。
处理数据量不一样。统计学通常使用样本数据，通过对样本数据的估计来估算总体变量。数据挖掘使用的往往是总体数据，这也在过去的年代生产力和技术限制所致。数据挖掘由于采用了数据库原理和计算机技术，它可以处理海量数据。
发现的知识方式不一样。数据挖掘的本质是很偶然的发现非预期但很有价值的知识和信息。这说明数据挖掘过程本质上是实验性的。而统计学强调确定性分析。确定性分析着眼于寻找一个最适合的模型——建立一个推荐模型，这个模型也许不能很好的解释观测到的数据。

但我们仍应该更多的关注统计学思想下的数据分析。

关注

专栏目录