数据分析秋招小结

Part1. SQL


基础语法操作

推荐网站:xuesql.cnsqlbolt.com

如果觉得不够尽兴/过瘾,这个网站涵盖了更全面的知识点:w3school



进阶:


关键词:限时
编程题目不限时容易钻牛角尖…

推荐网站:LeetCodeHackerRank

同样,觉得写的很生硬的题目也可以去学习一下评论区或者submission里高亮的答案,以了解一些笔面试常考但是xuesql或者书上没有出现的写法和函数。通常一个好的答案会以非常完整的教程形式呈现,比如:
在这里插入图片描述
放一道难度为easy的题目,感受一下:组合两个表



关于笔试/面试

  • self join,表自身的连结,例题:连续出现的数字
  • case when/if语句,例题:变更性别;应用:行转列/列转行
  • 窗口函数,通俗易懂的学会:SQL窗口函数
  • 子查询,例题:从不订购的客户
  • 自定义函数,例题 :
    Design a product catalogue with products (name, price, description), and n-level and multiple categories and manufacturer (name, logo). Draw normalized table structure with primary & foreign keys and write SQL to retrieve all n-level category products recursively, expected output:
    Books – Philosophy – Metaphysics
    Books – Philosophy – Confucianism - Mencius
    Books – Literature – Lin Yutang
    Software – Utilities – File Management

除此之外,知乎上提供了很多练习题,需要自己下载mysql环境并建表练习,是一个非常完整的知识点巩固体系,比如:互联网校招SQL笔试经典50题及答案解析


下面我们看几道练习题:

  1. 给定如下几张表,查询学过编号“01”并且也学过编号“02”课程的同学的学号、姓名。

    student表:
    在这里插入图片描述

    teacher表:
    在这里插入图片描述

    course表:
    在这里插入图片描述

    sc表:
    在这里插入图片描述

  2. 给定表t_user_payment,要求查询三种服务(快车、顺风车、专车)分别收到三种支付方式(支付宝、微信支付、其它)的金额:
    在这里插入图片描述
    查询结果应如下:
    在这里插入图片描述



Part 2: 编程语言


推荐网站:LeetCode

几种常考的知识点:
  1. 数组,python数组的使用
  2. 栈(先进后出)
  3. 队列(先进先出),参考python栈和队列的实现
  4. 树:前序遍历,中序遍历,后序遍历,层序遍历,参考:二叉树遍历
  5. 哈希表

同样,放一些难度为easy的题目感受一下:



Part 3: 项目


核心关键词: 数据预处理、分析、数据可视化等


如何练习?

  1. 学校项目
    包括fyp/论文/大型且参与度较高的groupwork,可以回顾并润色之后加入简历。
  2. Kaggle/天池
    自己找项目做的最佳练兵场,可以熟悉整套数据分析的流程。很多大佬在Notebook板块贡献了自己的答案,可以作为参考学习。如果有一个较为亮眼的排名是一个很大的加分项。
  3. 实习
    提升最快的方式,通过业务需求进一步理解岗位。



数据预处理

预处理是整个项目中最耗时的部分之一。因此在面试中也会作为考察的重点。


填充缺失值: 删除变量、填充等
离群点判断: 箱线图、3 σ \sigma σ 原则等
降维: 逐步回归、PCA、SVD等
数据变换: min-max标准化、z-score标准化、log变换等


经常会结合项目问具体的操作步骤和流程,因此最好能具体阐述Python/R中的具体函数名,以及熟悉一下这些函数的参数。


参考:整理一份详细的数据预处理方法



分析


从笔面试出发:

  1. 概率与统计


    概率分布: 二项分布、泊松分布、正态分布以及它们的期望、方差等等
    假设检验: 应用:A/B test,expected shortfall等
    条件概率: 贝叶斯、条件期望等


    推荐直接做模拟卷,以练代学。

    牛客公司真题

    例题1:
    (2020年小红书秋招数据分析笔试) 调查全公司1000名员工平均交通费用支出情况,采取不重置抽样,从其中抽取100名进行调查。根据以往调查可知总体方差s²为100,则样本均值的方差为 ()
    A. 0.1
    B. 0.01
    C. 100/111
    D. 10/111
    例题2:
    用概率告诉你:集齐 “五福” 要多久


    重点:统计分布,贝叶斯,假设检验,期望等等。

  2. 常用机器学习算法(结合项目)

    1. 分类(支持向量机,朴素贝叶斯,分类树等等)
    2. 回归(线性回归,逻辑斯蒂回归,回归树等等)
    3. 聚类(K-means,Hierarchical clustering等等)

写进简历里的算法/模型必须熟悉每一个细节。

可视化/数据呈现


工具: Tableau,PowerBI,以及Excel, Python, R中的绘图包等


这一块面试一般不会问太多,一般会结合实际项目或者实习经历询问,或者给定情景要求应试者给出适合的图表。



Part 4: 其它


Excel:

基本运算、常用函数、数据透视表等。
例题:
在这里插入图片描述


大数据相关

*加分项:Hadoop框架、Hive/Spark

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值