京东:数据分析-笔记

1、在软件开发过程中,我们可以采用不同的过程模型,下列有关增量模型描述正确的()
正确答案: B 你的答案: 空 (错误)
已使用一种线性开发模型,具有不可回溯性
把待开发的软件系统模块化,将每个模块作为一个增量组件,从而分批次地分析、设计、编码和测试这些增量组件
适用于已有产品或产品原型(样品),只需客户化的工程项目
软件开发过程每迭代一次,软件开发又前进一个层次。

解析:增量模型(Incremental Model)又称演化模型。与建造大厦相同,软件也是一步一步建造起来的。在增量模型中,软件被作为一系列的增量构件来设计、实现、集成和测试、每一个构件是由多种相互作用的模块所形成的提供特定功能的代码片段构成(B对),增量模型在各个阶段并不交付一个可运行的完整产品,而是交付满足客户需求的一个子集的可运行产品。整个产品被分解成若干构件,开发人员逐个构件地交付产品,这样做的好处是软件开发可以较好地适应变化,客户可以不断地看到所开发的软件,从而降低开发风险。(A错误,具有回溯性,可返回修改)

2、一颗二叉树的前序遍历是ABCDFGHE,后序遍历是BGHFDECA,中序遍历是?
正确答案: C 你的答案: 空 (错误)
GHBADFCE
DGBAFHEC
BADGFHCE

解析:前序和中序的最后一个是一样的。
其次,后序遍历的最后一个为根节点。

3、关于TCP协议的描述,以下错误的是?
正确答案: B 你的答案: 空 (错误)
面向连接
可提供多播服务
可靠交付
报文头部长,传输开销大
解析:
来源:《计算机网络》(第7版 P210)

TCP最主要的特点:
1)TCP是面向连接的运输层协议。应用进程之间的通信像“打电话”:通话前要先拨号建立连接,通话结束后要挂机释放链接。(A选项,面向连接)
2)每一条TCP连接只能有两个端点(endpoint),点对点。(B选项,TCP只能提供点对点,不提供多播)
3)TCP提供可靠交付的服务。无差错、不丢失、不重复,并且按序到达。(C选项)(D选项,TCP提供的是可靠交付,所以TCP首部开销会大;UDP协议只是尽最大努力交付,UDP的首部开销小)
4)TCP提供全双工通信。双向通信.
5)面向字节流。“面向字节流“的含义是:虽然应用程序和TCP的交互是一次一个数据块(大小不等),但TCP把应用程序交下来 的数据仅仅看成是一连串的无结构的字节流 。TCP并不知道所传送的字节流的含义。

4、以下命令用于设置环境变量的是:
正确答案: A 你的答案: 空 (错误)
export
cat
echo
env

export: 设置环境变量
echo:查看是否成功
env:显示所有的环境变量
set:显示所有本地定义的Shell变量
unset:清除环境变量

5、数据库事务的特性不包含:
正确答案: B 你的答案: 空 (错误)
原子性
并发性
一致性
持久性

解析:
数据库事务四大特性:

1、原子性(Atomicity)
原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响。
2、 一致性(Consistency)
一致性是指事务必须使数据库从一个一致性状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态。
拿转账来说,假设用户A和用户B两者的钱加起来一共是5000,那么不管A和B之间如何转账,转几次账,事务结束后两个用户的钱相加起来应该还得是5000,这就是事务的一致性。
3、隔离性(Isolation)
隔离性是当多个用户并发访问数据库时,比如操作同一张表时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离。
即要达到这么一种效果:对于任意两个并发的事务T1和T2,在事务T1看来,T2要么在T1开始之前就已经结束,要么在T1结束之后才开始,这样每个事务都感觉不到有其他事务在并发地执行。
4、持久性(Durability)
持久性是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作

6、索引是对数据库表中一个或多个列的值进行排序的数据结构,以协助快速查询、更新数据库表中数据。以下对索引的特点描述错误的是:
正确答案: C 你的答案: 空 (错误)
加快数据的检索速度
加速表和表之间的连接
在使用分组和排序子句进行数据检索时,并不会减少查询中分组和排序的时间
通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性

7、如果ORDER BY子句后未指定ASC或DESC,默认使用以下哪个?
ASC
ASC为增序
DESC默认为降序

8、关于Python中的复数,下列说法错误的是()
正确答案: C 你的答案: 空 (错误)
表是复数的语法是real + image j
实部和虚部都是浮点数
虚部必须后缀j,且必须小写
方法conjugate返回复数的共轭复数

9、关于Python中的复数,下列说法错误的是()
正确答案: C 你的答案: 空 (错误)
表是复数的语法是real + image j
实部和虚部都是浮点数
虚部必须后缀j,且必须小写(错误,可以大写也可以小写)
方法conjugate返回复数的共轭复数

解析:
关于python中的复数:

1.表示复数的语法是real + image j

2.实部和虚部都是浮点数

3.虚部的后缀可以是 “j” 或者 “J”

4.复数的 conjugate 方法可以返回该复数的共轭复数。

1、虚数不能单独存在,它们总是和一个值为 0.0 的实数部分一起构成一个复数

2、复数由实数部分和虚数部分构成

3、表示虚数的语法:real+imagej

4、实数部分和虚数部分都是浮点数

5、虚数部分必须有后缀j或J

10、执行以下shell语句,可以生成/test文件的是(假定执行前没有/test文件):
正确答案: A B C 你的答案: 空 (错误)
touch /test
a=touch /test

/test
echo ‘touch /test’

解析:
A. Linux touch命令用于修改文件或者目录的时间属性,包括存取时间和更改时间。若文件不存在,系统会建立一个新的文件。
B 不知道
C. 在shell中 ‘>’ 为创建, ‘>>’ 为追加。当文件不存在时,’>'与‘>>’都会默认创建。
D. echo 是一个Shell内建命令,用来在终端输出字符串,并在最后默认加上换行符。单引号包围的字符串中不能解析变量。

11、if [ $2 -a $2 = “test” ]中 -a是什么意思(并且)
linux的逻辑判断
-a,与
-o,或
|,非

12、文件目录data当前权限为rwx — ---,只需要增加用户组可读权限,但不允许写操作,具体方法为:
正确答案: A 你的答案: 空 (错误)
chmod+050data
chmod+040data
chmod+005data
chmod+004data

解析;
Linux/Unix 的文件调用权限分为三级 : 文件拥有者、群组、其他。利用 chmod 可以藉以控制文件如何被他人所调用。
r 表示可读取,w 表示可写入,x 表示可执行,X 表示只有当该文件是个子目录或者该文件已经被设定过为可执行。
数字分别表示User、Group、及Other的权限。

r=4,w=2,x=1
若要rwx属性则4+2+1=7;
若要rw-属性则4+2=6;
若要r-x属性则4+1=5。

13、以下哪个模型是生成式模型:
正确答案: A 你的答案: 空 (错误)
贝叶斯模型
逻辑回归
SVM
条件随机场

解析:
生成模型,就是生成(数据的分布)的模型;
判别模型,就是判别(数据输出量)的模型。
生成式模型:
朴素贝叶斯
混合高斯模型
隐马尔科夫模型(HMM)
贝叶斯网络
Sigmoid Belief Networks
马尔科夫随机场(Markov Random Fields)
深度信念网络(DBN)
判别式模型:
K近邻(KNN)
线性回归(Linear Regression)
逻辑斯蒂回归(Logistic Regression)
神经网络(NN)
支持向量机(SVM)
高斯过程(Gaussian Process)
条件随机场(CRF)
CART(Classification and Regression Tree)

14、从使用的主要技术上看,可以把分类方法归结为哪几种类型
正确答案: A B C D 你的答案: 空 (错误)
规则归纳方法
贝叶斯分类方法
决策树分类方法
基于距离的分类方法

15、异常检测技术:
http://www.csuldw.com/2019/03/24/2019-03-24-anomaly-detection-introduction/?from=timeline&isappinstalled=0

16、熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:
:计算公式为:
在这里插入图片描述
17、以下相关关系取值,哪个蕴含了无关系?
正确答案: B
Cor(X, Y) = 1
Cor(X, Y) = 0
Cor(X, Y) = 2
其他都是

COr意思:correlation是相关系数,covariance是协方差,这里是cor

corr(x,y) 相关系数,用来刻画二维随机变量两个分量间相互关联程度
-1<corr(x,y) <1,也就是说相关系数介于-1到1之间,并可以对它作一下几个说明
corr(x,y) =0 则称X,Y不相关,不相关是指X,Y没有线性关系,但也有可能有其他关系,比如平方关系,立方关系等
corr(x,y) =1,则称X与Y完全正相关,corr(x,y) =-1,则称X,Y完全负相关

18、置信概率可以用来评估区间估计的什么性能(可靠性)。
19、为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?
正确答案: B 你的答案: 空 (错误)
探索性数据分析
建模描述
预测建模
寻找模式和规则

20、数据科学家使用的统计方法有( )
统计学习方法的经典研究主题包括:

线性回归模型
感知机
k 近邻法
朴素贝叶斯法
决策树
Logistic 回归于最大熵模型
支持向量机
提升方法
EM 算法
隐马尔可夫模型
条件随机场

21、在下列算法中,对于缺失值敏感的模型为:
正确答案: B 你的答案: 空 (错误)
随机森林
Logistic Regression(逻辑回归)
C4.5
朴素贝叶斯
AC基于树模型,对缺失值敏感度低;D朴素贝叶斯对缺失值也比较稳定;B逻辑回归是线性模型,对缺失值敏感。

22、
京东仓库中对某种商品进行合格性检验,已知这种商品的不合格率为0.001,即1000件商品中会有一件次品。现有现有一种快速检验商品方法,它的准确率是0.99,即在商品确实是次品的情况下,它有99%的可能抽检显示红色。它的误报率是5%,即在商品不是次品情况下,它有5%的可能抽检显示红色。现有有一件商品检验结果为红色,请问这件商品是次品的可能性有多大?

已知 : P(次品)= 0.001, P(红|次品)= 0.99, P(红|正品) = 0.05

则,

P(正品)=1 - 0.001 = 0.999,

P(红色且次品) = P(红|次品) x P(次品)

P(红色且正品) = P(红|正品) x P(正品)

P(红) = P(红色且次品) + P(红色且正品)=0.99x0.001 + 0.05x0.999=0.05094

根据贝叶斯公式,

P(次品|红)= P(红|次品) x P(次品) / P(红)= 0.99 x 0.001 / 0.50094 = 0.02

23、有30个需要渡河,只有一条船,船每次最多载4人(包括划船的人),往返一次需要5分钟。那么,21分钟后,还有几个人在等待过河?( )
正确答案: B 你的答案: 空 (错误)
因为第一个5分钟是船已经送走3个人返回来了。所以是:(0)3 ,(5)3,(10)3,(15)3,(20)3,(21)4 = 19,剩下11。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椒椒。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值