数据分析师求职指南-CSDN博客

本文链接：https://blog.csdn.net/csdnbt/article/details/116063397

0 前言

本人数学（本科）+统计（硕士）专业出身，求职方向为数据分析师，具有近3年跨境电商财务运营分析经验。以下将结合个人专业理解、以往工作经验和近期求职情况，就“数据分析师求职“课题作相关经验/考察点的分享/总结，见识有限仅供参考。

1 简历构成

个人信息：姓名+ 电话+ 邮箱+ 求职意向+ 个人网站/github/领英链接（加分项，如工作学习笔记、项目建模等）；
教育背景：就读时间+ 学校+ 学历+ 专业+ 主修课程（课程重在体现专业能力）；
知识技能：统计分析方法和模型+ 机器学习算法和模型+ excel+ BI+ sql+ python（技能展示熟练程度，如sql应用，python常用包）；
其他技能：业务指标+ 数据思维+ 分析方法（结合岗位业务理解）；
工作经验：复盘与意向岗位相关工作经验（重点语言表述，以序列形式列出）；
项目经历：技术工具+ 分析方法+ 效果/价值产出（根据STAR法则描述：动作+细节+结果。重点能力体现：沟通、协调、学习、分析思维能力以及工具使用情况）。

2 指标体系搭建

2.1 指标体系简介

指标体系将零散单点的具有相互联系的指标（将业务单元细分后量化的度量值），系统化的组织起来，通过单点看全局，通过全局解决单点的问题，它主要由指标和体系两部分组成。指标体系的作用：

衡量业务发展质量；
建立指标因果关系；
指导用户分析工作；
指导基础数据建设；
指导内容产品建设；
统一指标消费口径。

2.2 指标体系构建

【1-大致思路】

分析业务需求，确定核心指标；
根据业务分类、AARRR、产品功能，确定二级指标；
拆解指标。

【2-思路详解】

【计划-分析】思考产品类型和业务目标，梳理业务流程，形成一个指标体系框架；
【设计】根据指标框架进行指标体系拆分，并与各部门沟通指标其合理性，确定统计维度及粒度（度量单位，如记录度量，时间频次）。指标包括：a. 基础指标-多为有具体的业务场景或者可直接获取的数据，通常为描述性的指标，如人数、单量、UV、PV等。b. 衍生指标-多是从基础指标转换而来，可以一定程度上反应出业务的好坏优劣，如完成率、单均价格等；
【开发-测试】整理底层数据存储逻辑（数据源取数、指标、维度、计算逻辑），验证指标可行性输出，准确性校验，整理问题给出解决方案。遇到问题如：指标没有埋点无法获取、有埋点但是数据未传、数据缺失、错误严重等；
【可视化】指标数据可视化展示，便于业务概览及异常数据监控，分析报告输出；
【维护】根据业务调整，指标体系持续更新优化。

互联网产品的数据导向业务工作流：在这里插入图片描述

【3-分析方法】
运营是针对不同的用户群体，通过内容和渠道来做营销，通过数据指标来优化运营的手段、产品的功能与用户体验的一种思维。OSM模型（Obejective业务目标–Strategy业务策略–Measurement业务度量）是指标体系建设中辅助确定核心的重要方法。
在这里插入图片描述

如何把业务问题转化为数据问题？

指标：确定业务问题的关键指标，并进行适度拆分；
维度：确定业务问题的维度，围绕维度构建问题。

2.3 电商指标体系

总结各类指标主要可分为以下三大类：

金额/价值指标：如销售额、广告投入额、获客成本等；
数量指标：如订单数、用户数量、加购频次等；
质量指标：如投入产出比率、转化率、波动率等。

在这里插入图片描述

3 原型设计开发

3.1 原型设计简介

原型设计是确认需求、设计产品最重要的沟通工具，是产品经理具备的基础技能。原型图种类(可应用于手机端、桌面端、平板）：

线框图（快速、低成本描述方案）；
高保真原型图（耗时、高还原度。要素：形状、尺寸、色彩、贴图-推荐搜索引擎如iconfont\baidu、交互动作-页面切换\响应范围\点击动效、演示效果-手机演示\原型托管\屏幕适配）；
需求文档（PRD/MRD，逻辑与业务说明指导研发）。

3.2 原型设计分析

原型设计过程包括分析、整体设计、单界面设计、验证四个部分。
（功能实现：确认界面布局和内容-》确认交互-》实现）

分析：分析用户需求，确认原型设计的目标是什么。
整体设计：有效需求分析-业务场景分析。以“场景-问题/挑战-方案”的逻辑来分析每个业务场景，从而导出所需的功能。对原型进行整体设计，主要从两个维度考虑：信息结构（功能模块、模块之间的关系、哪些模块是公共的、哪些模块要定制化显示不同内容等）、使用流程（结合场景和用户体验设计界面之间的跳转逻辑）。
单界面设计：对每个界面制作原型，并做好界面之间的链接，优先考虑满足产品需求，然后是让界面好看好用。
验证：正式的项目中，针对原型设计需要有相应的评审会议。和项目成员、客户进行确认，收集意见反馈并调整。

3.3 原型设计工具

Axure RP、墨刀、Adobe XD、PtotoPie等。

4 业务分析框架

4.1 分析方法

描述性分析（找出问题）：描述性统计是借助图表或者总结性的数值来描述数据的统计手段。常见指标如下：

a. 集中趋势：众数、分位数、中位数、平均数
b. 离散趋势：异众比率、四分位差、极差、方差、标准差、变异系数/离散系数（CV=标准差/总体均值，是概率分布离散程度的归一化量度）
c. 偏差程度：z分数（反映一个值距离该组数据平均数的相对标准距离）、切比雪夫定理（任意一个数据集中，位于其平均数m个标准差范围内的比例（或部分）总是至少为1−1/m2）
d. 相关程度：协方差、相关系数
e. 分布形状：偏度、峰度。
诊断性分析（分析问题）；
预测性分析（趋势分析）；
规范性分析（解决问题）。

（详细参考本人博客《数据分析-导论》）

4.2 分析思路

以电商订单数据为例，数据分析基本思路是：使用可视化报表检测订单关键指标的变化，并在数据维度上进行维度下钻。

1. 可视化报表：散点图-相关性、气泡图-三维比较、直方图、条形图、折线图、累计分布折线图（二八定律）等。

在这里插入图片描述

2. 关键指标变动分析：同比和环比，价值-数量-质量-转化指标分析。如电商财务运营分析关注点：
①　营收规模。如：GMV、销售额、订单量、客单价、订单有效率；平台用户数-拉新留存、用户转化率，等；
②　盈利能力。如：退货退款仓储等变动或固定成本占比、毛利率、边利率、净利率，等；
③　资产占用（存货+应收+应付）。如：存货可支撑天数和库存减值、应收坏账余额和周转天数、其他货币资金冻结金额和回款预测，等。

3. 维度下钻：数据维度需结合数据驱动业务的影响因素出发，主要分为几方面：用户、产品、市场（人货场指标体系见下图）。在这里插入图片描述

4.3 业务模型

4.3.1 用户画像

（1）用户画像简介

1. 简介：
用户画像是在电商行业运用广泛的一种技术，是根据一系列用户的真实数据而挖掘出的目标用户模型，其主旨为将用户的每个具体信息抽象成标签，利用这些标签将用户形象具体化，从而为用户提供有针对性的服务。根据行业和产品的不同，用户画像所关注的特征也有不同，但主要还是体现在以下方面：
①　基本特征。如：年龄、性别、职业、家庭类型、地域等特征；
②　行为特征。如：搜索、浏览、收藏、加购物车、付款等一系列行为事件的特征；
③　使用场景。如：用户购物频次、购买时间偏好、购买物品等属性等，用户的使用场景对运营策略的设计指导意义最大。

2. 实现步骤：
数据抓取-》特征工程-》数据标签化-》搭建用户画像-》分析需求-》精细运营。

3. 电商应用：
①　分析用户行为数据来获取用户的商品偏好、价格偏好等信息，从而帮助平台/入驻商更好地去推荐商品/生产商品；
②　分析用户属性数据来对用户进行合理地分类，从而帮助平台/入驻商更好地了解用户需求，搭建用户画像。

4. 用户画像分类：
①　商户画像（AARRR模型）：着重点是通过用户的属性和行为习惯来进行最优化的选品、制定最优化的价格策略和对库存进行预测；
②　平台画像（RFM模型）：着重点是通过提升用户体验、各式精准的营销活动来吸引消费者到平台进行浏览和转化；
③　商品画像（购物篮分析）：是产品的根基，对商品进行精准的定位，可以辅助建立用户标签进而优化用户的体验，同时可以驱动后端供应链的各种行为，如预测、补货、促销、库存、采购、生产、物流等等。

（2）用户生命周期

用户生命周期：是全部用户从第一次访问产品到流失的整个过程中的阶段划分，阶段划分的标准可以参考用户留存曲线和用户购买频次及其他指标进行划分，一般划分为：新手期、成长期、成熟期、沉默期、流失期五个阶段。在用户生命周期的基础上，进一步细分用户特征，帮助针对性的运营，延长用户生命周期，促进用户购买，最终提升GMV。
用户生命周期价值（Customer Lifetime Value，CLV）：是用户整个生命周期内对GMV的贡献。计算公式为： CLV（单个用户）=用户生命周期各阶段的变现能力之和 -》各阶段用户的生命周期价值=生命周期各阶段用户的平均变现能力*用户数
-》用户生命周期价值=sum(各阶段用户的生命周期价值)。

（3）个性化推荐模型

常见个性化推荐模型：

基于关联规则的推荐（user-item）：采用概率统计的方式来判断某两种或者多种商品之间的相关性做出推荐。关联规则算法不仅可以用于推荐系统，也可以用于对用户行为的分析；
协同过滤推荐：利用最近邻算法得到用户和用户，物品和物品的相似程度产生推荐结果；
逻辑回归模型（Logistic Regression）：用于解决二分类（0 或1）问题的统计学模型，用于估计某种事物的可能性。比如得到用户行为可能性，再按照这个可能性排序来取top-k进行推荐。步骤：特征变换-训练模型-模型推断概率-概率排序获得推荐列表。

4.3.2 漏斗模型

什么是漏斗模型？
漏斗模型是一套流程式数据分析模型，用来反映用户在流程里的关键行为以及从起点到终点各阶段转化和流失情况。若无法判断转化率低的确定因素，可结合AB测试驱动产品迭代。
为什么要用漏斗模型？
• 可以帮助分析师迅速定位流程中的短板；
• 利于多维度切分，捕捉用户行为变化，及时发现异常；
• 有助于观察和比较不同用户群体之间的差异，持续提升用户体验。
【总结】对产品流程的精细化运营+精细化设计。
常见的漏斗模型-AARRR模型
获客（Acquisition）、激活（Activation）、留存（Retention）、收益（Revenue）、自传播（Referral）。

AARRR & OSM模型：
如何搭建和分析漏斗模型？
①　梳理主要路径和流失节点；
②　选定核心路径：选择开口大的路径、漏斗环节不能太多、漏斗环节量差不能太大；
③　观察和比较数据：纵向对比、横向对比、关注不同层级的数据指标。

【总结】漏斗模型将任意产品流程抽象成一个个的关键步骤，然后用转化率来衡量每一个步骤的表现，最后通过异常的数据指标找出有问题的环节，从而解决问题，优化该步骤，最终达到提升转化率的目的。

5 数据建模理论

5.1 数据运营框架

【计划-分析】分析业务需求，建立和维护指标体系（确定核心指标、拆解指标）-》讨论制定数据分析框架（分析目标数据化，确定分析思路、方法、数据抽取规则，项目的落地价值和迭代方向）；
【设计-开发】数据采集-》数据预处理、可视化分析 -》特征工程（如筛选变量、新增变量、分箱）-》数据建模（数据挖掘建模 - 机器学习预测分群、数据挖掘归因洞察；数据仓库建模 - BI数据建设、ETL数据加工）；
【测试】模型评估（如：分类-准确率、精确率、召回率；回归-RMSE平均均方根误差、MAE平均绝对误差）-》数据应用（产品、报表）；
【维护】指导（运营）。

5.2 理论模型简介

统计模型：列联表与方差分析、相关与回归分析、聚类与判别分析、降维分析、预测分析；
（统计模型相关讨论详细参考本人博客《统计模型-基于sas》）
机器学习模型：监督学习-分类、回归；无监督学习-聚类、关联分析、降维。
（机器学习模型相关讨论详细参考本人博客《机器学习模型-基于python》）

6 工具技能

6.1 excel

基础— 快捷键、函数、透视表
进阶（加分项）— vba、power bi

6.2 sql

基础— ddl、dml语句
进阶（面试考察）— 子查询、join、having、over()、存储过程

（sql相关讨论详细参考本人博客《sql入门-基础-拓展》）

6.3 tableau

Tableau是一种商业智能软件，允许任何人连接到相应的数据，然后可视化并创建交互式的可共享仪表板：
图表（字段操作、表计算、LOD、过滤器等）、仪表盘、故事

6.4 python

6.4.1 基础

【内置包】os、re、csv等
【数据分析包】numpy、pandas、matplotlib

（1）numpy

numpy（import numpy as np）

1. 创建数组(nd-array)：
①　np.array([])一维数组（np.array([[]])多维数组）
②　np.arange(start, stop, step,dtype=)返回ndarray均匀间隔值的数组

2. 数组的索引和切片：
①　一维数组的索引和切片：arr[start:stop:step]
②　多维数组的索引和切片：arr[r:][c:]或arr[r:,c:]

3. 数组重组：
①　数组变形：arr.reshape((r,c),order=’C’)
②　数组展平：arr.ravel()、arr.flatten(“C”)
③　数组拼接：np.hstack((arr1, arr2))、np.concatenate((arr1, arr2), axis=)
④　数组分割：np.split(arr,n,axis=)
⑤　数组排序：sorted(arr)返回临时排序的列表、arr.argsort()排序后的初始下标、arr.sort()不返回值，只进行排序操作

4. numpy几个重要的函数：
①　np.unique(arr)唯一值;
②　np.tile(arr,n)重复n次、np.repeat(arr, [n1, n2,…]，axis=)指定元素分别重复ni次；
③　统计计算：arr.mean()、arr.std()、arr.var()、arr.sum(axis=)、arr.argmax(axis=)、arr.cumsum()；
④　生成随机数（对比import random）：np.random.random(a)、np.random.randn(a, b)、np.random.randint(a, b, size=(c, d))、np.random.choice([“a”, “b”, “c”], n, replace=False);
⑤　文件读取：np.genfromtxt(‘文件名’, delimiter=‘’,dtype=, encoding=) 返回多维数组，支持读取本地文件和网络文件。

（2）pandas

pandas ( import pandas as pd ）

1. 第一种数据类型（Series）：
sr = pd.Series([], index=[])

2. 第二种数据类型（DataFrame）：
df1 = pd.DataFrame({: , :},index=[])
df2 = pd.DataFrame(df,index=[], columns=[])

3. 文件处理：
①　读取文件： pd.read_csv()、pd.read_excel()、pd.read_sql()、pd.read_clipboard() ；
②　写入文件：to_csv()、to_excel()、to_sql()、 to_json()
③　合并文件：pd.concat([df1, df2], axis=, sort=, ignore_index=)拼接、pd.merge(df1, df2,on=,how=) 横向关联

4. 数据处理：
①　排序和行标签：df.sort_values()、pd.cut(col,bins=[], labels=[]) ；
②　去重处理：df.drop_duplicates(subset=[] , keep=’last’/‘first’,
inplace=True)；
③　异常值处理：df.drop(labels =, inplace=True)；
④　空值处理（检查缺失值：df.isnull()、df.notnull()、df.isnull().sum()）：df[].fillna()、df.dropna(axis=, how=‘all’ / ‘any’, inplace=True)；
⑤　数据标准化：
a. 离差标准化：(df[“c”] - df[“c”].min()) / (df[“c”].max() - df[“c”].min()
b. 标准差标准化：(df[“c”] - df[“c”].mean()) / df[“c”].std()
⑥　哑变量处理：pd.get_dummies(df[])；
⑦　批量操作（调用函数）：
a. 每个元素进行相同操作：df[].apply(func) #func可用lambda
b. 整列合并计算：df.agg({“c1”: func1, “c2”: func2})
c. 分组统计：df.groupby(by=[col], axis=).sum()

（3）matplotlib

matplotlib（import matplotlib.pyplot as plt）

1．创建画布与子图：
①　创建画布：plt.figure() ；
②　创建子图：plt.subplot()、fig.add_subplot()

2．添加画布内容：
①　绘制函数： plt.text(x, y, s) 、 plt.annotate(s, xy) 、plt.grid(True) 、 plt.title(‘’)、plt.xlabel(‘’)、plt.xlim()、plt.xticks()、plt.legend()、plt.axis([])
②　设置动态rc参数（图形属性）：lines.linewidth、lines.linestyle、lines.marker、lines.markersize

3．绘图：
①　分析特征间的关系： plt.scatter()散点图、 plt.plot()折线图
②　分析特征内部数据分布与分散状况： plt.hist()直方图、 plt.bar()条形统计图、 plt.pie()饼图、 plt.boxplot()箱线图

4．存储与展示图像：
①　统一调整子图间距：fig.subplots_adjust(wspace= ,hspace= )
②　保存图形：fig.savefig(" ")
③　显示图形：plt.show()
④　读取图形文件：readshapefile()