一、面试前的准备
二、直面数据分析面试
三、基础知识考查
四、编程技能考查
4.1 熟悉Python
4.1.1 概念
Anaconda -> Spyder & Jupyter Notebook
4.1.2 数据分析 - pandas & numpy
pandas读取Excel或者CSV文件,处理表格数据。
4.1.3 数据可视化 - matplotlib & pyecharts
4.3 掌握SQL
4.3.1 数据库常见类型及表单查询SQL语句
(1)Structured Query Language
(2)Hive SQL
HDFS - 存储
MapReduce - 计算
(3)Hive VS MySQL
数据量 - 查询
延迟响应 - 数据看板
(4)Hive 不涉及子查询的单表查询SQL执行顺序
FROM + 表名
WHERE + 查询条件
GROUP BY + 字段名
HAVING + 查询条件
DISTINCT + 字段名
ORDER BY + 字段名
LIMIT + 数量
4.3.2 多表查询SQL语句
(1)索引
Hive无索引,使用分表表加快查询速度。(增量表&全量表)
(2)多表连接
join:以字段(列)为单位进行连接
union:以记录(行)为单位进行连接
(3)join
inner join
left join
right join
full join
(4)union
union
union all
4.3.3 更多SQL内容
(1)聚合函数
sum
avg
count
stddev
variance
max
min
percentile
(2)distinct
select distinct id
select count(distince subject)
(3)case when
利用现有字段,结合条件,生成新的字段。
分组和选择语句。
聚合函数。
(4)窗口函数
为分组中的每条记录都会返回特定值
减少表之间的连接
row_number() over()
percent_rank() over()
sum() over()
avg() over()
man/min() over
(5)动态更新