数据分析竞赛题库(卷17-卷22

一、资本化率

资本化率又称还原化率、收益率、它与银行利率一样也是一种利率。后者是把货币存入银行产生利息的能力即利息率,前者则是把资本投入到不动产所带来的收益率,两者不能等同。资本化率是将未来无限期预期收益折算成现值的比率

其计算公式为:资本化率=折现率-未来年收入的增长率

 二、分层抽样

优点:具有较好的代表性,抽样误差较小,各层可以根据调查对象的特征采取不同的抽样方法或资料收集方式;统计分析内容更丰富,可以对不同层进行独立分析,还可以比较不同层之间的差异。缺点:分层不当时,层内变异较大,层间变异较小,分层失去意义。主要适用于群间差异较大的情形。

①单纯随机抽样:又称简单随机抽样,即先将总体中所有观察单位编号,再用随机数字表或抽签等方法随机抽取一定数量的观察单位组成样本。这是一种最简单最基本的抽样方法,也是其他抽样方法的基础。优点:简单直观、均数(或比率)及标准误的计算简便;缺点:总体大时,难以对总体中的个体一一编号,且抽到的样本分散,不易组织调查。适用于总体不太大的情形。

②系统抽样:又称机械抽样。按照某种顺序给总体中的个体编号,然后随机抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最简单也最常用的系统抽样是等距抽样。优点:易于理解,简单易行,容易得到一个在总体中分布均匀的样本;缺点:当总体的观察个体按顺序有周期趋势或增加(减少)趋势时,容易产生偏倚,抽到的样本较分散,不易组织调查。适用于按抽样顺序个体随机分布的情形。

③分层抽样:又称类型抽样或分类抽样。它先将总体中全部个体按照某种特征分成若干“层”,再从每一层内随机抽取一定数目的观察单位,合并组成样本。优点:具有较好的代表性,抽样误差较小,各层可以根据调查对象的特征采取不同的抽样方法或资料收集方式;统计分析内容更丰富,可以对不同层进行独立分析,还可以比较不同层之间的差异。缺点:分层不当时,层内变异较大,层间变异较小,分层失去意义。主要适用于群间差异较大的情形。

④整群抽样:是将总体划分成许多群(如按地区划分),然后从中随机抽取部分群,将抽取的各个群的全部观察单位组成样本。优点:便于组织调查,节省经费,容易控制调查质量;缺点:样本量一定时,抽样误差一般大于单纯随机。主要用于群间差异较小的情形。

⑤多阶段抽样:是将抽样过程分阶段进行,每阶段使用的抽样方法往往不同。先从总体中抽取范围较大的单元(一级单元),再从每个一级单元中抽取范围更小的二级单元,以此类推。优点是可利用各抽样方法的优势,节省人力、物力;缺点为抽样前需要掌握各调查单位的人口资料及特点。适用于大型流行病学调查。

三、约束方法

大致可分为三种类别:

(1)用线性规划或二次规划来逐次逼近非线性规划的方法,如SLP、SQP等;

(2)把约束优化问题转化为无约束优化问题来求解的方法,如可行方向法、梯度投影法、既约梯度法等;

(3)对约束问题不预先做转换的直接搜索法,如复形法、随机试验法等;

四、整数规划

A:整数规划问题的可行解 一定是 其 松弛问题的可行解 , 松弛问题的可行解不一定是整数规划问题的可行解 , 整数规划问题的最优解 不会优于 松弛问题的最优解 ;

松弛问题 比 整数规划问题 条件少一些 , 整数规划问题比松弛问题变量限制多一条 " 约束变量必须都是整数 " ;
【运筹学】整数规划 ( 整数规划问题解的特征 | 整数规划问题 与 松弛问题 示例 )_运筹学什么是松弛问题-CSDN博客

C:用割平面法求解整数规划是,构造的割平面只能切去非整数解。

五、线性回归基本假设

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。基本假设包括随机干扰项是均值为0的同方差正态分布

六、分支定界法

分支定界算法是求解整数规划或者混合整数规划问题的最常用方法之一,其基本思想是将松弛可行域不断分解为较小的区域,并从该区域当中获取最好解;若该区域仍然无法满足变量约束条件,则进一步划分可行域。这一过程为分支过程且分支过程中将会对解进行判断,若劣于当前最好解,该支将被舍去。若找到符合约束条件的整数解,则需要对当前解进行更新,划定问题的界限,称之为定界。

java调用cplex实现分支定界算法求解整数规划问题_@throws iloexception-CSDN博客

七、其他

 

卷18

一、其他

二、 检验统计量:

常见的检验统计量包括:

t检验:用于检验样本均值是否显著不同于总体均值,适用于样本容量较小(n<30)的情况。

z检验:用于检验样本均值是否显著不同于总体均值,适用于样本容量较大(n≥30)的情况,且总体方差已知。
单样本比例检验:用于检验一个总体比例是否等于一个特定值。
两样本t检验:用于检验两个样本均值是否显著不同于总体均值,适用于独立样本或配对样本的情况。
方差分析(ANOVA):用于检验多个样本均值是否显著不同于总体均值,适用于多组样本的比较。
卡方检验:用于检验两个或多个分类变量之间是否存在相关性或差异性。
相关分析:用于检验两个连续变量之间是否存在相关性。


C:根据计算的统计量,查阅相应的统计表,确定P

 三、置信区间:

C 置信区间大小与平均值的数值大小无关。

 四、线性规划:

看卷13笔记:

可行解:约束条件等式+决策变量非负
最优解:约束条件等式+决策变量非负+目标函数最优
基解:非基变量=0+约束条件等式
基可行解:非基变量=0+约束条件等式+决策变量非负
基最优解:非基变量=0+约束条件等式+决策变量非负+目标函数最优

 卷19

一、指标对比分析法

指标对比分析法,又称比较法。就是通过技术经济指标的对比,检查计划的完成情况,分析产生差异的原因,进而挖掘内部潜力的方法。

应用形式

1 将实际指标与计划指标对比,以检查计划的完成情况,分析完成计划的积极因素和影响计划完成的原因,以便及时采取措施,保证成本目标的实现。在进行实际与计划对比时,还应注意计划本身的质量。如果计划本身出现质量问题,则应调整计划,重新正确评价实际工作的成绩,以免挫伤人的积极性。

2 本期实际指标与上期实际指标对比。通过这种对比,可以看出各项技术经济指标的动态情况,反映施工项目管理水平的提高程度。在一般情况下,一个技术经济指标只能代表施工项目管理的一个侧面,只有成本指标才是施工项目管理水平的综合反映。因此,成本指标的对比分析尤为重要,一定要真实可靠,而且要有深度。

3 与本行业平均水平、先进水平对比。通过这种对比,可以反映本项目的技术管理和经济管理与其他项目的平均水平和先进水平的差距,进而采取措施赶超先进水平。

 二、矩阵关联分析法

关联矩阵法是常用的系统综合评价法,它主要是用矩阵形式来表示各替代方案有关评价指标及其重要度与方案关于具体指标的价值评定量之间的关系。

关联矩阵法是对多目标系统方案从多个因素出发综合评定优劣程度的方法,是一种定量与定性相结合的评价方法,它用矩阵形式来表示各替代方案有关评价指标的评价值,然后计算各方案评价值的加权和,再通过分析比较,确定评价值加权和最大的方案即为最优方案。

 三、预警指标

预警评价指标包括人的安全可靠性指标、生产过程的环境安全性指标、安全管理有效性指标、机(物)安全可靠性指标

 四、置信区间

假设我们重复抽样100次,手头就有了100个区间,95%置信区间的含义就是:在这100个区间里,我们几乎可以断定里面会有95个区间是包括总体均数的,因此,如果我们从这100个区间中随机抽取一个,这个区间包括总体均数的概率不就是95%?(想象有100个球,95个黑球,随机抽取的一个球是黑球的概率——95%)。

怎样全面理解95%置信区间

五、其他

若计划数是以下限规定的(越大越好的指标),产值、利润等,其计划完成相对数大于100%为超额完成计划;若计划数是以上限规定(越小越好的指标),产品成本、原材料消耗量等,其计划完成相对数小于100%为超额完成计划.

 卷20

一、其他

 二、卡方统计量

卡方统计量是指数据的分布与所选择的预期或假设分布之间的差异的度量。在1900年由英国统计学家pearson提出,是用于卡方检验中的一个统计量。它可用于检验类别变量之间的独立性或确定关联性。

卡方值越大,说明观察值与期望值之间的差异越大,两者之间的差异越显著。

用途

  1. 检验某个连续变量或者离散变量是否与某种理论分布接近,即分布拟合检验;
  2. 检验类别变量之间是否存在相关性,即列联分析;
  3. 卡方检验_卡方检验原假设-CSDN博客

 

 

 

 

 三、二分类

实际上,k分类问题不能简单地等效于k-1个二分类问题。在k分类问题中,我们需要将样本分为k个不同的类别。而二分类问题只需要将样本分为两个类别。因此,对于k分类问题,我们通常需要使用特定的算法或模型来处理多个类别之间的关系,而不是简单地将其拆分为多个二分类问题。

四、线性规划

 线性规划问题得可行解有无穷多个,与某一凸集上得无穷多个点一一对应,可以证明,最优解必定在凸集得顶点,而顶点得个数是有限的,单纯形法是采用跨越式得方式,高速求解最优解得一种方法。

基本思路

1,首先将线性规划问题转化为标准形式;
2,求解初始可行解;
3,判断是否为最优解;
4,如果不是最优,则迭代到其相邻得基本可行解并在此检验。
       单纯形法把寻优的目标集中在所有基本可行解中,是从一个初始的基本可行解出发,寻找一条达到最优基本可行解的最佳途径。

一、线性规划_线性规划模型的结构_ZJH01080108的博客-CSDN博客

五、法律构成要件

法律责任的一般构成要件有以下几点:
1、主体:法律责任主体是指违法主体或承担法律责任的主体,应注意的是,责任主体不完全等同于违法主体;
2、过错:主观故意或过失,在刑法上故意或过失是判定行为人主观恶性的重要依据;民法上故意和过失统称为过错,是构成一般侵权行为的要素;在行政法领域,实施过错推定的方法;
3、违法行为:包括犯罪行为和一般违法行为,违法行为与法律责任的关系是既联系又区别的,违法行为是法律责任产生的前提,而法律责任的承担不以违法的构成为条件;
4、损害事实:即受到的损失和伤害的事实,包括人身、财产、精神三方面。损害应当具有确定性,即是业已发生的而不是即将发生的,损害必须根据社会的一般观念和公众意识予以认定;有此责任的承担不以实际损害存在为条件;
5、因果关系:违法行为与损害事实有一因一果的关系。

法律责任的构成:行为、心理状态、损害事实、因果关系。

卷21

一、自然语言处理层次

在对自然语言进行处理时,通常会涉及到不同层面的语言知识。宗成庆老师在《统计自然语言处理》中将自然语言处理划分为4个层次: 形态学、语法学、语义学、语用学、 而朱巧明老师在《中文信息处理技术教程》中把自然语言处理的理解层面从低级到高级划分为七个层次,他的层次划分比较细致: 语音层次、词形层次、词汇层次、句法层次、语义层次、语用层次、语境层次。 相应地,语言的分析和理解过程也应当是一个层次化的过程。许多语言学家把这一过程分为四个层次:语音分析、语法分析、语义分析、语用分析。其中语法分析又可分为词法分析和句法分析。 语音分析是根据音位规则,从语音中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。 词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。句法分析是对句子和短语的结构进行分析,分析的目的就是找出词、短语等相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可以是从属关系、直接成分关系和语法功能关系。 语义分析就是通过分析找出词义结构意义及其结合意义,从而确定语言所表达的真正含义或概念。 语用分析,就是对语言符号与语用符号使用者之间联系的研究分析。

 卷22

一、其他

 二、分支定界法

分支操作 : 任选一个 非整数解变量 x i x_i xi​ , 在 松弛问题 中加上约束 , x i ≤ [ x i ] x_i \leq [x_i] xi​≤[xi​] 和 x i ≥ [ x i ] + 1 x_i \geq [x_i] + 1 xi​≥[xi​]+1 , 形成 两个新的 松弛问题 , 就是两个分支 ;


三、逻辑回归

逻辑回归(Logistic Regression)-CSDN博客

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值