ML一些题目

1. ”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, AUC达到了0.98,  我们可以下的结论是 : C

A. 模型AUC还不够高,需要0.99以上才符合预期

B. 模型已经够好了,不需要做调优了。

C. 模型样本需要做缩减,特征或者评估方法需要改进

D. 以上都不对

2. 对于随机森林和GradientBoosting Trees, 下面说法正确的是: (B)

A.在随机森林的单个树中, 树和树之间是有依赖的, 而gbdt 中的单个树之间是没有依赖的

B.这两个模型都使用随机特征子集, 来生成许多单个的树。

C.我们可以并行地生成gbdt单个树, 因为它们之间是没有依赖的,gbdt 训练模型的表现总是比随机森林好

D. GradientBoosting Trees通常比随机深林速度快。

3. 以下说法正确的是 :C

A. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的

B. 如果增加模型复杂度, 那么模型的测试错误率总是会降低

C. 如果增加模型复杂度, 那么模型的训练错误率总是会降低

D. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

4. 对应GradientBoosting tree 算法, 以下说法正确的是 :A,C

A.当增加最小样本分裂个数,我们可以抵制过拟合

B.当增加最小样本分裂个数,会导致过拟合

C.当我们减少训练单个学习器的叶子数量,我们可以降低variance

D.当我们减少训练单个学习器的叶子数量,我们可以降低bias

6.  logistic regression模型训练中如果发现模型

训练集合效果太差,可以用哪些方法?(AD

测试集合效果太差,可以用哪些方法?(BC

A. 换随机森林或者gbdt

B. 增大数据集合

C. 加L1或者L2正则

D. 做特征工程,增加特征或者特征组合

7.. 有A,B,C三个门,其中有一扇后面是黄金,另两扇后面是空的。 你首先选择了B,现在的其中一扇被翻开,这个代号是A为空的,你该不该换成C?为什么?

   答:换。概率不同一个1/3,一个2/3

8. 世界上每十万人中就有一人是艾滋病患者。某一种药物可以帮助检测艾滋病,如果一人真是艾滋病,可以百分百检测出来,而如果一个人没有艾滋病,它的检测出错的概率是1%。请问利用这种检测药物,监测正确的概率有多高?

全概率问题,设艾滋患病为A,无患病为B;检测结果艾滋为a,那么 P(a|A)=1, P(a|B)=0.01。

P(A) = 0.00001

P(B) = 1 - P(A)

检测正确的概率为 :

P(A|a) = P(A,a)/P(a) = P(a|A)p(A)/(P(a|A)P(A)+P(a|B)P(B))

9. 已知A,B厂生产的产品的次品率分别是1%和2%,现在由A,B产品分别占60%、40%的样品中随机抽一件,若取到的是次品,求此次品是B厂生产的概率。

P(A)=0.6,P(B)=0.4,P(次/A)=0.01,P(次/B)=0.02

P(B/次) = P(B,次)/P(次) = P(次|B)P(B)/(P(次|A)P(A)+P(次|B)P(B)) = 4/7

10. 给定一个二分类集合 y={0,1} , X 数据集合在五百万条左右,特征集合既有category特征,也有连续性特征,正负样本比1:20左右,构建一个分类模型,请问:

1. 你会选用什么算法?为什么?

2.  请描述建模步骤

  1. 算法大家都熟悉,能回答出深度学习算法的加分
  2. 请参考ctr建模步骤,包括分析、特征处理、特征选择、模型调参、模型评估、上线步骤等,回答越全加分越多。

11. 如何做feature selection,有哪些方法?

  1. 权重评估法,如卡方、相关性、信息增益等
  2. 异常特征剔除,如方差、sparse指标
  3. 正则
  4. rf或者gbdt的权重
  5. 暴力筛选

12. 请对比一下Sigmoid, Relu, Tanh 激活函数的异同

从以下2个方面回答

  1. 函数形式上
  2. 梯度上

13. 解释一下AUC

14. 常见的损失函数有哪些?请给出数学表达式

20. 不使用math库,求解 x^2-2=0 的解, python或者 c都可以。

牛顿、二分

21. 给定特征集合X={x1,x2,x3,…,xn}, 输入K,求解这些特征的K阶组合特征,python或者c都可以

参考答案:python直接调库,c加分

22. 输入list X={x0…xn}, 计算pi=softmax(xi), python或者c都可以

参考答案:注意数值计算危险边界

23. 用户行为表tracking_log,大概字段有(user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’),请统计:

  1、计算每天的访客数和他们的平均操作次数。

  2、统计每天符合以下条件的用户数:A操作之后是B操作,AB操作必须相邻。

24. 新增留存分析,给定用户登陆表user_log,大概字段有(user_id‘户编log_time‘陆时间),求每天新增用数,以及他2天、30天的回访比例 

7. 请给出分析用户流失的思路

   1)明确问题:某时间段为什么流失(需要先定义好流失)

   2)两层模型定位问题:按用户画像、时间、来源渠道等分群,计算每个群体的流失率,确定到底是哪些群体超出自然流失率了

   3)分析原因:这里流失率指标不需要拆解,因此直接分析原因

      a. 内部:发生流失率变化的时候是否进行了什么行为,技术、产品、运营、营销还是大的定位发生变化?细分

b. 外部:PEST等方法,政策环境、竞争对手、经济趋势、消费偏好、技术变化

2 .数据分析。用户行为表tracking_log,大概字段有(user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’),请统计:

  1、计算每天的访客数和他们的平均操作次数。

  2、统计每天符合以下条件的用户数:A操作之后是B操作,AB操作必须相邻。

 

  1. 根据要求写出SQL

A结构如下:

    Member_ID(用户的ID,字符型)

    Log_time(用户访问页面时间,日期型(只有一天的数据))

    URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)

7 市场部选择部分用户来进行产品A的短信推广,获取了用户在时间窗口内是否购买了A产品的数据。数据挖掘同学通过这些已知的是否购买数据,用来判断其他用户的购买倾向,这在数据挖掘中属于什么任务?B

A、聚类

B、预测

C、探索性分析

D、关联规则

8 公司读书项目发起一次促销推广活动,从哪些方面来评价这次活动是否成功?

   1)明确目标:拉新?促活?

   2)根据目的确定核心指标

   3)效果评估:

      a. 自身比较:活动前与活动中比较

      b. 与预定目标比

      c. 与同期其它活动比

      d. 与往期同类活动比

   4)持续监控:

      a. 检查活动后情况,避免透支消费情况发生

      b. 如果是拉新等活动,根据后续数据检验这批新客的质量

2数据分析。用户行为表tracking_log,大概字段有(user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’),请统计:

  1、计算每天的访客数和他们的平均操作次数。

  2、统计每天符合以下条件的用户数:A操作之后是B操作,AB操作必须相邻。

 

8 双11 刚过,预测一下下个月的淘宝销售情况,你从那几个方面去分析?

1)思考:淘宝很大,如果用整体数据算的话会忽略了很多类目变化的信息;如果细分到很小的类目,那么数据波动较大,预测不准确。因此需要先确定一个细分的范围,一方面能涵盖类目的信息,一方面数据要比较稳定(如一阶差分满足正态分布等),  双十一刚过;竞争对手变化等

2)分析:

a. 从数字到数字法:直接用之前的数据,建立时间序列模型,预测下个月的淘宝销售数据,加总后得到销量

b. 分解法:由于淘宝销售会受到季节与节日的影响,因此直接从数字到数字模型的预测能力有限。分解销售数据,销量 = 流量 * 转化率(太细分了的话工作量太大),参考以往数据和下个月的实际情况(如有双十二等),对流量和转化率进行预估,加总后得到销量

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值