- 你是怎么进行数据跟踪 数据异常监控的 举个例子
比如在上家公司 发现当日活跃人数环比上日下降40% 这就是一个异常 我们去监控出现这个问题的原因 是不是有用户对新版本的不熟悉、操作不习惯导致日活跃人数下降 或者是版本太久没有更新 内容没有什么变化 用户粘性不高 导致下降 产品时间拐点:产品的淡旺季,早晚用户活跃度,产品周期性等
- 工作中提出过什么解决方案 列举例子
比如 针对用户薅羊毛的情况 我先从每个用户下单的集中时间观测 一般薅羊毛的用户时间都会集中在某一点 或者通过用户某一段时间内的利润率来判断用户是否薅羊毛 针对薅羊毛的用户 限制发放优惠券、拉入黑名单等 通过一些列措施 公司GMV得到了巨大的提升 提升了10个百分点
- 竞品分析中提过什么建议
爬取竞争对手网页的爆款产品的一些信息 结合自己公司的产品 好的吸收、优化
- 你在工作中常用到的Excel函数有哪些
Vlookup、index 、match 、条件统计函数等
- scrapy框架由哪几部分构成 分别有什么作用
引擎(发送请求给调度器) spider爬取想要的数据 item管道存储数据 downloader 下载件下载数据 调度器
- AARRR模型由那几个部分组成
也称为海盗模型 拉新 促活 留存 转化 传播
- RFM模型用来衡量什么
衡量当前用户价值和客户潜在价值的重要手段和工具
- PEST基本法则是什么
政治 社会 经济 技术
- 谈谈你对Hadoop文件分布式的理解
文件分区存储 有时候数据量比较大的时候 可能考虑到要分区进行存储 这样速度更快
- pyspark与spark的区别
pyspark是有Python提供接口的 pyspark运行的时长会高于spark
- 你在工作做用到哪些Linux命令
cd 切换目录 chomd 更改文件权限 chown 更改用户组权限 touch 创建文件 mkdir 创建文件夹
- 说说logistics或者随机森林的原理
逻辑回归:对分类边界建立回归公式,将回归公式带入逻辑斯蒂函数, 得到概率, 设定阈值,根据阈值去分类.
随机森林:通过样本随机和特征随机构建多棵不同的决策树,综合评判模型得分.因为是特征随机,所以可以根据不同特征构建出来的树的得分来计算出特征重要性.
- 交叉验证是什么
交叉验证指的是将测试集数据进行切分成多分,每一小份轮流作为验证集,检验模型的性能 ,防止切分数据不均衡造成验证结果得分的波动,同时更好地利用好数据,使得每个数据都可以得到训练.
14.逻辑回归为什么叫逻辑回归
逻辑回归属于判别式模型 用回归来解决分类的问题 将结果分成两类
15.过拟合与欠拟合怎么解决
过拟合指的是训练得分很好,但是测试集得分比较低,即泛化能力较差
欠拟合指的是训练集和测试集得分都比较低
过拟合主要有3种情况:1.测试集合训练集数据分布不同,容易过拟合,
2.模型训练过度,偏差较小,但方差较大,造成过拟合
3.问题简单,模型复杂
欠拟合主要有两种情况:1.模型太复杂,参数更新太慢,偏差过大
2.训练不够
应对措施:
过拟合:可以加入惩罚项,有L1,L2正则, 适当调整模型,加上dropout, 加上early-stop
欠拟合:减少模型复杂度,增加训练
16.分类评估指标有哪些
准确率:预测正确的样本数/总样本数
精确率:预测正确的正例数/总样本中正例总数
召回率:实际为正样本数/总样本中正例数
F1 Score是一种调和平均数。
17.Django与flask的区别
Django开发效率更高 适合大项目 flask适合小项目
18.你会从哪几方面做竞品分析
首先是产品的标题是否够吸引用户 其次产品的评论分析 是因为产品的质量问题还是售后服务不行 再者就是同行是否搞了优惠活动 降低价格
20.你认为数据分析的价值如何体现
数据分析不是数据统计,不能仅仅停留在输出一份报告,给出一些数字,要给出结论,讲清楚数据背后的业务含义,数字的大小正负说明业务是好是坏,有多好多坏。21.关于具体的产品指标的问题哈~指标的异常波动变化(例如日活下跌),你会如何分析?
21. 专题分析思路(沟通和逻辑)
产品经理 -> 指标下降 -> 找出问题
运行 -> 分析效果 -> 给出方案
1.业务方会提到很多问题,一定要将问题进行细分,抓住业务核心问题,并用思维导图拆解,找到本质问题和逻辑树拆解
2.业务解决方案一定要找业务和数据进行反馈,确保思路无问题再进行提数分析
3. SQL提数前相关表库先问好坑,再进行取数,核心数据尽早和业务方沟通
4.提数和分析完成后,先不要急着写报告,把一些关键数据和初步结论同步给业务方核心人员
5.对于核心数据能导出什么样的结论要提前和业务及大数据沟通好,再进行专题报告撰写
22.~如果某一次分析的结果数据特别大,有些结果数据扛不住了,请问该怎么办?
其实一般的结果数据的数据量没有那么大,也就几十万是样子,这样的数据级别,对于MySQL这样的数据库是没有任何压力的但是如果这个数据量千万或者亿级别,同时有复杂的SQL查询,这个时候MySQL就肯定扛不住了。这是需要结合实际情况去考量的了,这个问题考察的还是数据量的问题。出现这个情况的时候就需要我们构建索引(例如通过lucene来对于要检索的字段添加索引),或者用分布式的内存服务器来完成查询。总之,两套思路,一个是用文件索引的形式,就是空间换时间,另外一种是用内存,就是用更快的存储来请求。
23.如何评估一场活动的效果
1.核查数据是否可靠;确定指标计算口径是否一致;确定是否是市场的整体趋势
2.描述并分析变化是否合理
3.多维度拆解分析,相关分析等等方法进行分析,寻找造成变化的相关因素
4.进行回归分析/预测,还会持续多久?最坏到什么程度?
5. 风险/损失评估,下跌对产品的核心KPI有什么影响
6. 制定策略,挽回损失/避免下次发生
24.解释一下应该如何处理可疑或缺失数据
首先需要准备提供所有可疑数据信息的验证报告它可以提供相应的信息,如失败的验证标准以及发生的日期和时间。
25.数据分析的流程是怎么样的
1.明确目的和思路。2、数据收集。3、数据处理。4、数据分析。5、数据可视化。6、撰写数据分析报告
26.数据挖掘和数据分析之间的区别
数据分析:针对个别属性的实例分析。提供有关属性的各种信息,如值范围,离散值及其频率,空值的发生,数据类型,长度等。
数据挖掘:重点关注聚类分析,异常记录检测,依赖关系,序列发现,多个属性之间的关系控制等。
27.谈谈你对数据分析师这个岗位的理解
针对某个问题,将获取后的数据用分析手段加以处理,并发现业务价值的过程
目标确认 - 数据获取,清洗,处理 - 数据分析 - 结果呈现(分析报告)
28. 数据分析报告思路
1.我写数据分析报告都会按着SCQA架构来写,首先考虑是什么背景下,发生了什么问题,然后站在对方的角度提出问题,最后再给出解决问题的方案
29.谈谈你最熟悉的一个项目
优惠活动复盘分析,从两个维度 一是产品维度,二是用户维度