第1章 导论


什么是统计学

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学

数据分析所用的方法可分为描述统计方法推断统计方法

  • 描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;
  • 推断统计是研究如何利用样本数据来推断总体特征的统计方法;

统计数据的类型
1. 分类数据、顺序数据、数值型数据

按照计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的;

顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但是这些类别是有序的。比如将产品分为一等品、二等品、三等品、次品等;

数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数是数值型数据

分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可以统称为定性数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因而也可称为定量数据或数量数据。


2. 观测数据和实验数据

按照统计数据的收集方法,可以分为观测数据和试验数据。

观测数据是通过调查或观测收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据;

实验数据则是在实验中控制实验对象而收集到数据。


3. 截面数据和时间序列数据

按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。

截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况。比如,2010年我国各地区的国内生产总值就是截面数据;

时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况。比如2010-2016年我国的国内生产总值就是时间序列数据


统计中的几个基本概念
  • 总体:包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成;
  • 样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。抽样的目的是根据样本提供的信息推断总体的特征
  • 参数:用来描述*总体*特征的概括性数字度量,它是研究者想要了解的总体的某种特征值,比如总体平均数、总体标准差、总体比例等;
  • 统计量:用来描述*样本*特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。常用的统计量有样本平均数、样本标准差、样本比例等

由于样本是已经抽取出来的,所以统计量总是知道的。抽样的目的就是要根据样本统计量去估计总体参数。

除了样本均值、样本比例、样本方差这类统计量,还有一些是为统计分析的需要而构造出来的统计量,比如用于统计检验的z统计量、t统计量等。

  • 变量:说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。如“商品销售总额”、“受教育程度”等都是变量。变量的具体取值称为变量值。变量可分为以下几种类型:
    1. 分类变量:说明事物类别的一个名称,其取值是分类数据。如:“性别”;
    2. 顺序变量:说明事物有序类别的一个名称,其取值是顺序数据,如:“产品等级”;
    3. 数值型变量:说明事物数字特征的一个名称,其取值是数值型数据。如:“产品产量”。数值型变量根据其取值的不同,又可以分为离散型变量和连续型变量。离散型变量是只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开,可以一一列举,如“企业数”;连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“年龄”、“温度”等。
内容概要:文章介绍了DeepSeek在国内智能问数(smart querying over data)领域的实战应用。DeepSeek是一款国内研发的开源大语言模型(LLM),具备强大的中文理解、推理和生成能力,尤其适用于企业中文环境下的智能问答、知识检索等。它具有数据可控性强的特点,可以自部署、私有化,支持结合企业内部数据打造定制化智能问数系统。智能问数是指用户通过自然语言提问,系统基于结构化或非结构化数据自动生成精准答案。DeepSeek在此过程中负责问题理解、查询生成、多轮对话和答案解释等核心环节。文章还详细展示了从问题理解、查询生成到答案生成的具体步骤,并介绍了关键技术如RAG、Schema-aware prompt等的应用。最后,文章通过多个行业案例说明了DeepSeek的实际应用效果,显著降低了数据使用的门槛。 适合人群:从事数据分析、企业信息化建设的相关从业人员,尤其是对智能化数据处理感兴趣的业务和技术人员。 使用场景及目标:①帮助业务人员通过自然语言直接获取数据洞察;②降低传统BI工具的操作难度,提高数据分析效率;③为技术团队提供智能问数系统的架构设计和技术实现参考。 阅读建议:此资源不仅涵盖了DeepSeek的技术细节,还提供了丰富的实战案例,建议读者结合自身业务场景,重点关注DeepSeek在不同行业的应用方式及其带来的价值。对于希望深入了解技术实现的读者,可以进一步探索Prompt工程、RAG接入等方面的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值