【面试相关】数据分析面试前必看知识点Q&A①

趁着周末,决定花些时间来整理一下,属于我的数据分析学习地图。
第二篇:数据分析面试前必看知识点Q&A②

第一部分 知识框架

在这里插入图片描述

第二部分 面试准备

1、一开始先自我介绍,针对简历开始深入地问,目前主要是做什么的
2、为什么离职。
3、个人优缺点。
4、自己觉得满意的具体做的项目。
5、自己是怎么做特征工程的。
6、建模的准确率怎么样?
7、有没有用于实际中?
8、了解公司及岗位吗
9、每周输出报表是输出什么。
10、推荐一款APP给她?并且说出优点和缺点,除了微信,淘宝,QQ。
答:keep。优点:1、可以在家,碎片化锻炼,不用去健身房。2、语音指导。3、可以生成记录,在社区打卡。
缺点:1、无法将课程投屏到电视上,没有浸入感。2、锻炼的时候音乐单一,很容易无趣。3、线上线下结合不够。
Q2:[英]如果让我来分析,我会关注哪些数据?
答:运动时长,运动耗能,常练课程。其实这样答是不对的,不够结构化。
应该是这样:
1、从用户行为角度分析,打开APP次数,留存率,
2、从课程角度出发
3、从。。。。出发
11、做的项目,为什么会做,怎么做的
12、平时都用什么办公软件,挑一款你最常用得办公软件,如果是你,你会分析哪些指标(企业微信)
13、如果一个产品的指标突然上升很多,分析原因
内部:4p理论+结构化思维
外部:pest法则,
14、对职位的了解,对公司的了解
15、提到了离职原因,想从公司这里收获什么,以及觉得产品分析是做什么的
16、提到创新,讲讲在公司中做的最有成就感的项目,用到什么算法,会怎么提升
17、有什么问题要问?

第三部分 补充一些零散知识点

1.sql 语句复习

数据定义语言DDL
DDL主要是对数据库对象进行创建、修改、删除的操作(create, alter, drop)
DML主要是对数据库表 进行插入、修改、删除的操作(insert, update, delete)
DQL主要是对数据库表中数据查询的操作(select);
DCL主要是对数据库对象权限设置的操作授予权限、回收权限、提交、保存点、回滚、设置事务等(grant, revoke, commit, savepoint, rollback, set transaction);
insert into tablename (列1,列2…) values(值1,值2…)
update 表名称 set 列名称=新值 where 列名称等于某值
delete from 表名 where 列名=值
不含=not like’%lon%’=like’!%lon%’
不含字符列中的一个,例如0-9数字,’!%[0-9]%’
not between …and…
添加列
alter table tablename add columnname
删除列
alter table tablename drop column
null 值只能用is null /is not null 查找
为什么mysql使用B+树进行索引
B+树与B树
首先其实指的是存储引擎innodb的索引结构,
B树是树内每个节点都存数据,且叶子节点间无指针相连,优点是单一查询时,性能更好,可能一进入就查到,确定:无指针,做遍历操作很麻烦
B+树是数据只出现在叶子节点,所有叶子节点增加了链指针,在数据遍历的时候或者范围查询的时候,速度快很多
又因为msql涉及排序,分类的操作很多,因此选b+,而像以MongoDB这样的存储引擎下,用单一查询较多,选B树
union 和union all 区别
union是对两个结果采用并集操作,但是不包括重复行,相当于做了distinct,并且会按一定默认规则排序
union all 是对两结果并集,但是包括重复行,所有结果都显示,不会进行默认排序。

2.python 语句复习

input()的输入会被强制转换为字符串类型,不管终端输入字符串还是整数等,都会转为字符串,如需整数,需要强制int()转换
list.append(),在末尾添加新对象
list.insert(index,obj)位置,对象
list.pop()
list.sort()排序
[x*5 for x in range(2,10,2)]输出 [10,20,30,40]

3.机器学习的一些补充

分为监督和无监督学习两种,
监督:回归问题主要是预测连续值的输出,如房价问题
分类问题是通过一至多的特征设法预测一个离散值的输出,如逻辑回归
逻辑回归:实际上是一种分类算法,用于y是离散值0或1情况下,公式=1/(1+e^-z),
朴素贝叶斯,相互独立条件概率假设,常用于语音识别,模糊搜索,
决策树:一种自上而下的递归,内部节点是根据不同的属性向下分支,最终叶节点就是类,核心在于找到信息增益最大的特征,如ID3算法
无监督:把数据分成不同的族,聚类算法,K-means:原则是组内数据距离最小,组间数据距离最大,用sse误差平方来取拐点K值,

4.大数据的基本概念

5v:数据量大、产生速度快、类型繁多、真实性、数据价值
hadoop :由4个主要组成部分,
HDFS(分布式存储)【特点是1、分布式文件系统高容错,但不适合存储小文件,也不适合处理低延时的数据】
MapReduce(分布式计算)【其实是由两个函数map()将数据切分给不同的服务器进行存放计算,reduce()把分布式计算进行整合汇总,两个函数之间通过键值对进行交互】
资源调度yarn,【整合资源管理框架】
common()【支持其他模块的通用组件】
hive:基于hadoop的数据仓库工作,将结构性的数据映射成一张数据库表,提供类似SQL的操作
spark基于内存的大数据计算框架,以内存换效率,速度比较快,用于处理低延时的数据
kafka分布式消息队列,实时处理大量数据,高吞吐量
lambda架构:是一种基于流式计算的框架,实时性要求高,核心概念是流批一体化,由左到右进入平台,一分为二,一部分走hadoop那样的批处理,一部分走spark那样的流处理,最终都是通过服务层对应用提供,保证访问一致性
kappa架构,因为流批分离会加大研发复杂性,设计一体全基于流计算的框架,加大流式数据的时间窗口
flink:可以批处理任务的流处理框架,将批数据看成有限边界的流数据

5.一些产品的知识点

动态面板其实是一种图层,像一个容器有很多控件,通过多控件的合理组合,状态切换,实现多动态的交互效果
如:图片轮播、面板折叠、开关、标签页、抽屉、鸵式导航
全局变量(注册反馈案例)实现跨页面传值,在不同页面都可以被调用
马斯洛需求
生理需求–衣食住行(美团、饿了么、出行app)
安全需求–健康
归属需求–QQ、微信、社群类APP
尊重需求–vip服务、贵宾通道、中高端酒店会员
自我实现(自觉性、创造力)–抖音
敏捷开发:是一种拓展化的思维,通过迭代推进,从用户感受出发迭代产品,简称小步快跑
用户故事:描述需求。模板用户需要的功能,目的与价值,优先级,验收标准
pwa:渐进式网络应用程序,在网页中实现和原生应用一样的用户体验,且不需要用户安装

企业微信相比于钉钉的优点,第一不需要来回切换微信,第二保留了微信单聊、群聊的功能,且不需要额外下载APP
企业微信有企业标识,有信任感
企业微信的记录是一种被保存的

设计一款APP(从用户痛点、产品愿景、功能、检验是否符合市场)
公众号和小程序
公众号搭建内容自媒体的生态,不仅是熟人之间的联系更是商业经济的交流,让商家获利,精准营销
小程序:整合生态,APP,用完即走的概念,解决没时间,没内存的问题

A/Btest
简单来说是一种控制变量法,针对特征相似的同一群体采用不同的两周测试方案或策略,收集用户体验数据,小范围发布,载从多个方案中选择最优版本。
流程为确定目标-创建变体-生成假设-划分A/B-运行试验-分析结果
特点是先验性(优先让小部分用户进行体验,提前验证方案)
并行性(测试时保证时间维度上是并行状态的两组数据)

置信区间(误差范围):根据样本的选取,选择一个区间,其上下限包含总体均值,这个区间称为置信区间,置信水平是指这个区间包含总体均值的概率

假设检验
原假设H0,是指我们希望通过实验推翻的假设,例如假设这个新功能对结果没改变
备择假设H1,是指我们希望通过实验验证的假设,例如假设是对结果有改变的

而后通过类似混淆矩阵的一个表格
横向是真实测试结果
纵向是实验分析结果
当H0实验H0真实,表示的确这个方案没什么意义
当H1实验
H0真实,表示这个方案出现了第一类错位a,实验假设是有变化的,但真实情况确是无变化的,它的上限是5%,置信度是1-a
当H0实验H1真实,表示这个方案出现了第二类错位b,实验假设是无变化,但是真实情况却是有变化的,他的上限是20%,置信度是1-b
当H1实验
H1真实,表示的确这个方案是会发生很大变化的
Z检验是样本容量>30,T检验是样本容量<30

产品sense:理解分析、目标群体、高频场景、核心功能、生命周期、竞品

外部:pest 框架:policy 政策、economic经济、society社会结构、technology技术
4P框架:product产品,产品和服务是什么,商机是什么
price价格,定价、销量
place(渠道):分销渠道是否还没打开
promotion(促销):更好的营销产品

6、其他

在数组中数据存储是有顺序的,访问数据简单,但是增删数据复杂,空间紧凑
在链表中数据存储是无顺序的,访问数据复杂,但增删快,由于要额外存储指针地址,因此需要更大的空间
介绍项目:定义要解决问题的目的,数据清洗,准备步骤,用了什么技巧或算法,做出什么成果

保持渴求,不要沉寂

在这里插入图片描述

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值