1. ”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, AUC达到了0.98, 我们可以下的结论是 : (C)
A. 模型AUC还不够高,需要0.99以上才符合预期
B. 模型已经够好了,不需要做调优了。
C. 模型样本需要做缩减,特征或者评估方法需要改进
D. 以上都不对
2. 对于随机森林和GradientBoosting Trees, 下面说法正确的是: (B)
A.在随机森林的单个树中, 树和树之间是有依赖的, 而gbdt 中的单个树之间是没有依赖的
B.这两个模型都使用随机特征子集, 来生成许多单个的树。
C.我们可以并行地生成gbdt单个树, 因为它们之间是没有依赖的,gbdt 训练模型的表现总是比随机森林好
D. GradientBoosting Trees通常比随机深林速度快。
3. 以下说法正确的是 :(C)
A. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的
B. 如果增加模型复杂度, 那么模型的测试错误率总是会降低
C. 如果增加模型复杂度, 那么模型的训练错误率总是会降低
D. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习
4. 对应GradientBoosting tree 算法, 以下说法正确的是 :(A,C)
A.当增加最小样本分裂个数,我们可以抵制过拟合
B.当增加最小样本分裂个数,会导致过拟合
C.当我们减少训练单个学习器的叶子数量,我们可以降低variance
D.当我们减少训练单个学习器的叶子数量,我们可以降低bias
6. logistic regression模型训练中如果发现模型
训练集合效果太差,可以用哪些方法?(A,D)
测试集合效果太差,可以用哪些方法?(B,C)
A. 换随机森林或者gbdt
B. 增大数据集合
C. 加L1或者L2正则
D. 做特征工程,增加特征或者特征组合
7.. 有A,B,C三个门,其中有一扇后面是黄金,另两扇后面是空的。 你首先选择了B,现在的其中一扇被翻开,这个代号是A为空的,你该不该换成C?为什么?
答:换。概率不同一个1/3,一个2/3
8. 世界上每十万人中就有一人是艾滋病患者。某一种药物可以帮助检测艾滋病,如果一人真是艾滋病,可以百分百检测出来,而如果一个人没有艾滋病,它的检测出错的概率是1%。请问利用这种检测药物,监测正确的概率有多高?
全概率问题,设艾滋患病为A,无患病为B;检测结果艾滋为a,那么 P(a|A)=1, P(a|B)=0.01。
P(A) = 0.00001
P(B) = 1 - P(A)
检测正确的概率为 :
P(A|a) = P(A,a)/P(a) = P(a|A)p(A)/(P(a|A)P(A)+P(a|B)P(B))
9. 已知A,B厂生产的产品的次品率分别是1%和2%,现在由A,B产品分别占60%、40%的样品中随机抽一件,若取到的是次品,求此次品是B厂生产的概率。
P(A)=0.6,P(B)=0.4,P(次/A)=0.01,P(次/B)=0.02
P(B/次) = P(B,次)/P(次) = P(次|B)P(B)/(P(次|A)P(A)+P(次|B)P(B)) = 4/7
10. 给定一个二分类集合 y={0,1} , X 数据集合在五百万条左右,特征集合既有category特征,也有连续性特征,正负样本比1:20左右,构建一个分类模型,请问:
1. 你会选用什么算法?为什么?
2. 请描述建模步骤
- 算法大家都熟悉,能回答出深度学习算法的加分
- 请参考ctr建模步骤,包括分析、特征处理、特征选择、模型调参、模型评估、上线步骤等,回答越全加分越多。
11. 如何做feature selection,有哪些方法?
- 权重评估法,如卡方、相关性、信息增益等
- 异常特征剔除,如方差、sparse指标
- 正则
- rf或者gbdt的权重
- 暴力筛选
12. 请对比一下Sigmoid, Relu, Tanh 激活函数的异同
从以下2个方面回答
- 函数形式上
- 梯度上
13. 解释一下AUC
14. 常见的损失函数有哪些?请给出数学表达式
20. 不使用math库,求解 x^2-2=0 的解, python或者 c都可以。
牛顿、二分
21. 给定特征集合X={x1,x2,x3,…,xn}, 输入K,求解这些特征的K阶组合特征,python或者c都可以
参考答案:python直接调库,c加分
22. 输入list X={x0…xn}, 计算pi=softmax(xi), python或者c都可以
参考答案:注意数值计算危险边界
23. 用户行为表tracking_log,大概字段有(user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’),请统计:
1、计算每天的访客数和他们的平均操作次数。
2、统计每天符合以下条件的用户数:A操作之后是B操作,AB操作必须相邻。
24. 用户新增留存分析,给定用户登陆表user_log,大概字段有(user_id‘用户编号’,log_time‘登陆时间’),求每天新增用户数,以及他们第2天、30天的回访比例
7. 请给出分析用户流失的思路
1)明确问题:某时间段为什么流失(需要先定义好流失)
2)两层模型定位问题:按用户画像、时间、来源渠道等分群,计算每个群体的流失率,确定到底是哪些群体超出自然流失率了
3)分析原因:这里流失率指标不需要拆解,因此直接分析原因
a. 内部:发生流失率变化的时候是否进行了什么行为,技术、产品、运营、营销还是大的定位发生变化?细分
b. 外部:PEST等方法,政策环境、竞争对手、经济趋势、消费偏好、技术变化
2 .数据分析。用户行为表tracking_log,大概字段有(user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’),请统计:
1、计算每天的访客数和他们的平均操作次数。
2、统计每天符合以下条件的用户数:A操作之后是B操作,AB操作必须相邻。
- 根据要求写出SQL
表A结构如下:
Member_ID(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(只有一天的数据))
URL(访问的页面地址,字符型)
要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
7 市场部选择部分用户来进行产品A的短信推广,获取了用户在时间窗口内是否购买了A产品的数据。数据挖掘同学通过这些已知的是否购买数据,用来判断其他用户的购买倾向,这在数据挖掘中属于什么任务?B
A、聚类
B、预测
C、探索性分析
D、关联规则
8 公司读书项目发起一次促销推广活动,从哪些方面来评价这次活动是否成功?
1)明确目标:拉新?促活?
2)根据目的确定核心指标
3)效果评估:
a. 自身比较:活动前与活动中比较
b. 与预定目标比
c. 与同期其它活动比
d. 与往期同类活动比
4)持续监控:
a. 检查活动后情况,避免透支消费情况发生
b. 如果是拉新等活动,根据后续数据检验这批新客的质量
2数据分析。用户行为表tracking_log,大概字段有(user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’),请统计:
1、计算每天的访客数和他们的平均操作次数。
2、统计每天符合以下条件的用户数:A操作之后是B操作,AB操作必须相邻。
8 双11 刚过,预测一下下个月的淘宝销售情况,你从那几个方面去分析?
1)思考:淘宝很大,如果用整体数据算的话会忽略了很多类目变化的信息;如果细分到很小的类目,那么数据波动较大,预测不准确。因此需要先确定一个细分的范围,一方面能涵盖类目的信息,一方面数据要比较稳定(如一阶差分满足正态分布等), 双十一刚过;竞争对手变化等
2)分析:
a. 从数字到数字法:直接用之前的数据,建立时间序列模型,预测下个月的淘宝销售数据,加总后得到销量
b. 分解法:由于淘宝销售会受到季节与节日的影响,因此直接从数字到数字模型的预测能力有限。分解销售数据,销量 = 流量 * 转化率(太细分了的话工作量太大),参考以往数据和下个月的实际情况(如有双十二等),对流量和转化率进行预估,加总后得到销量