牛客网刷题记录——数理统计(累积记录)

一、代码

  1. 对于以下代码,

    c char* p=new char[100];

    正确的是 p在栈上,new出来的在堆上

  2. 在给定文件中查找与设定条件相符字符串的命令是 grep

    grep (global search regular expression(RE) and print out the line:全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。

    Linux find命令用来在指定目录下查找文件。任何位于参数之前的字符串都将被视为欲查找的目录名。如果使用该命令时,不设置任何参数,则 find 命令将在当前目录下查找子目录与文件,并且将查找到的子目录和文件全部进行显示。

一个栈的入栈序列为ABCDE,则栈的不可能的输出序列为

二、模型

1. 聚类算法
1.1 k-means 聚类算法
  • 不能自动识别类的个数,随即挑选初始点为中心点计算
  • 初始聚类中心的选择对聚类结果的影响很大
  • 输入的数据的顺序与结果无关
1.2 常见的聚类算法
  • K-means聚类、K-中心点聚类、CLARANS算法、DIANA算法、BIRCH算法、Chameleon算法
  • EM算法
  • OPTICS算法、DBSCAN算法
2. 回归算法
2.1 logistic 回归算法
  • logistic回归是当前业界比较常用的算法,用于估计某种事物的可能性
  • logistic回归的结果并非数学定义中的概率值
  • logistic回归的自变量可以是离散变量也可以是连续变量
  • logistic回归的目标变量是离散变量
3. 模型调优

1)评估模型之后得出模型存在偏差,下列哪种方法可能解决这一问题?()
A 减少模型特征中的数量
B 向模型中增加更多的特征
C 增加更多的数据
解析:过拟合——高方差,低偏差; 欠拟合——低方差,高偏差
高偏差意味模型不够复杂(欠拟合),为了模型更加的强大,我们需要向特征空间中增加特征。增加样本能够降低方差。

2)常用的最优模型选择方法有(增加正则化项交叉验证增加罚项

4. 模型选择

1)小红书人脸识别系统识别当前进入小红书公司人员的身份,此系统一共识别三种不同的人员:员工,送餐员和陌生人。哪种学习方法适合此种应用需求(多分类

5. 分类算法
5.1 ROC曲线

1)ROC曲线会经过(0,0)与(1,1)这两点
2)当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变,适合评估和比较类分布不平衡的数据集
3)ROC仅适用于二分类问题,不可以直接应用于多类问题

5.2 可用于分类的算法

K近邻法、支持向量机、贝叶斯网络、神经网络、决策树

6. 时间序列
6.1 平滑预测法
  • 平滑法的目的是消除时间序列的不规则成分所引起的随机波动
  • 平滑预测法包括移动平均法指数平滑法
  • 简单指数平滑法是针对平稳时间序列的,二次指数平滑针对有线性趋势的序列,季节指数平滑法适用于有季节性变化的序列

三、方法

1. 黑盒测试

在黑盒测试方法中,设计测试用例的主要根据是 程序外部功能

黑盒测试是对软件已经实现的功能是否满足需求进行测试和验证,黑盒测试完全不考虑程序内部的逻辑结构和内部特性,只根据程序的需求和功能规格说明,检查程序的功能是否符合它的功能说明。

白盒测试又称结构测试、透明盒测试、逻辑驱动测试或基于代码的测试。白盒测试是一种测试用例设计方法,盒子指的是被测试的软件,白盒指的是盒子是可视的,你清楚盒子内部的东西以及里面是如何运作的。"白盒"法全面了解程序内部逻辑结构、对所有逻辑路径进行测试。"白盒"法是穷举路径测试。在使用这一方案时,测试者必须检查程序的内部结构,从检查程序的逻辑着手,得出测试数据。贯穿程序的独立路径数是天文数字。

四、分布

1. 卡方分布

卡方分布:若 n 个相互独立的随机变量 ξ 1 ξ_1 ξ1 , ξ 2 ξ_2 ξ2,……, ξ n ξ_n ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这 n 个服从标准正态分布的随机变量的平方和 X X X 构成一新的随机变量,其分布规律称为卡方分布( chi-square distribution )。

分布的均值为自由度(n) ,记为 E ( X ) = n E(X) = n E(X)=n

分布的方差为 2 倍的自由度(2n) ,记为 D ( X ) = 2 n D(X) = 2n D(X)=2n

五、概率计算

  1. 对立的两方争夺一个价值为1的物品,双方可以采取的策略可以分为鸽子策略和鹰策略。如果双方都是鸽子策略,那么双方各有1/2的几率获得该物品;如果双方均为鹰策略,那么双方各有1/2的概率取胜,胜方获得价值为1的物品,付出价值为1的代价,负方付出价值为1的代价;如果一方为鸽子策略,一方为鹰策略,那么鹰策略获得价值为1的物品。在争夺的结果出来之前,没人知道对方是鸽子策略还是鹰策略。当选择鸽子策略的人的比例是某一个值时,选择鸽子策略和选择鹰策略的预期收益是相同的。那么该值是(0.5)。
  2. 一个包里有5个黑球,10个红球和17个白球。每次可以从中取两个球出来,放置在外面。那么至少取 16 次以后,一定出现过取出一对颜色一样的球。

六、Excel

  1. excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括 index+matchvlookup
    match:匹配内容,并返回内容所在位置
    index:根据位置查询到数据
    vlookup:根据一个工作表的 A 列内容搜索另外一个表对应 A 列的 B 列值

  2. 在EXCEL输入以零开头的文本型数字时需在输入的数据前面加(’(英文单引号)

  3. 若单元格B2=30,B3=40,B4=52,则函数SUM(B2,B4)的值为(82
    SUM(B2,B4)的值为82
    SUM(B2:B4)的值为122

  4. 想使光标在单元格内移动,可以先定位单元格,再按下F2键,此时使用方向键就可以了

  5. EXCEL中,“abc1134”位于G3单元格,如何取出它的前3位( Left(G3,3)

七、数据库

  1. 移动端开发中常用的数据库是 SQLite
  2. 现在有一个tcp服务端监听了80端口,问最多同时能建立多少连接 非常多基本和内存大小相关
  3. 数据库系统减少了数据冗余
  4. 数据库的一致性是指数据库中多个有关联的表中数据需要一致。

八、移动端

  1. 在移动设备息屏时,以下哪种情况不一定导致大量耗电
    选项:使用gps导航,信号特别弱,电话通话中,打开过大量应用

九、填空

1. 抽样估计的优良标准有三个:

无偏性、一致性、有效性

2. 影响时间序列的因素有四个:

长期趋势、季节变动、循环波动、不规则波动

十、假设检验

1. 估计

1)要用样本方差推断总体方差,假定前提是总体应服从正态分布

2. 检验
2.1 T 检验

1)T检验是对样本均值差别显著性进行的检验
2)配对T检验其本质就是单样本的T检验
3)在进行两独立样本T检验之前,需要先检查方差是否齐性,如果方差不齐性,则应采用校正T检验

十一、 特征工程

1. 特征选择
1.1 特征选择的方法

卡方、信息增益、平均互信息、期望交叉熵

十二、抽样

1. 概率抽样
1.1 概率抽样一般包括

分层抽样、简单随机抽样、整群抽样、系统抽样

十三、SQL

1. 事务
1.1 一致性

事务的执行结果必须使事务从一个状态转变到另一个一致性状态

2. SQL 函数
2.1 regexp_replace

正则表达式替换函数:regexp_replace
语法: regexp_replace(string A, string B, string C)
返回值: string
说明:将字符串A中的符合java正则表达式B的部分替换为C。注意,在有些情况下要使用转义字符
举例:

`regexp_replace('foobar', 'oo|ar', '') 
>>> fb` 
2.2 %、round

%:取模,整除后的余数

8.4%4 
>>> 0.4

round:四舍五入,指定保留的小数位

round(8.4%4 , 2) 
>>> 0.40

未分组

1)

  • 方差分析可以用于两个样本均数的比较
  • 完全随机设计更适合样本对象变异不太大的资料
  • 在随机区组设计中,每一个区组内的例数都等于处理数
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值