如何从数据分析这个卷王行当转型数据科学

来源:华章计算机(hzbook_jsj)

作者:谢梁

 

最近有不少朋友咨询我数据分析的从业者未来的路怎么走的问题。这个问题很难回答,不过网上通常是给出两个方向:喜欢业务转产品/运营;喜欢技术转数据科学。今天这篇文章重要讨论后者,也就是数据分析师怎么转型数据科学家。

 

数据分析和数据科学的差异其实有很多讨论,YouTube网红Up主Ken Jee和Alex the Analyst曾就这个问题专门做过几个视频。Ken Jee的意见是数据科学家在代码编写能力、机器学习建模方面需要突出自己;而Alex的意见是数据科学家相对于数据分析师在工作职责、技能栈、门槛等方面都不同。不过他也同意,对于很多背景不是那么强但是想要进入数据科学领域的同学来讲,数据分析是一个不错的切入点。

 

我作为这个行业从业15年的老兵,也来谈谈我自己对转型的一些看法。我们先谈能力模型差异,其次谈如何有针对性地转型。

 

首先我们谈谈能力模型的差异。数据科学相比数据分析的核心差异我归纳为:一个中心两个基本点。一个中心是指【工程能力】;两个基本点是指【针对场景的建模能力】和【实验设计和分析能力】。这三者构成了当前数据科学从业人员的核心能力模型。

 

工程能力:这是之前容易忽略,但是确实非常重要的一个能力,也是保障数据科学产出落地的关键。其实在互联网起飞之前,美国消费金融行业有大量的量化分析师(Quantitative Analysts),可以视为数据科学家的前身,他们借助银行业普遍使用的SAS语言及平台,能够实现从数据工程到模型训练再到模型部署的全流程,当然这非常依靠脚本语言和手工的操作。

 

这里强调模型部署是因为只有这样才能直接进入价值生产的链条。比如银行里面的TargetedMarketing就是互联网的Growth Hacking在传统行业的前身,他们都对业务KPI产生直接的影响。虽然互联网行业和传统金融行业的技术栈差别极大,但是基本原则仍然适用,也就是对于商业问题进行抽象提炼后针对一个具体点形成一个子领域,并在这个子领域闭环整个价值发现到实现的链路,而不仅仅停留在PPT上。

 

这里就很自然地引申出第一个基本点,针对场景的建模能力。这里的场景可能会指代比较宽的范畴,按照层次可以归纳为【业务实现场景】和【决策场景】。业务实现场景类似上面提到的Targeted Marketing,Growth Hacking,甚至推荐、风控,等,都是针对具体业务问题的实现。决策场景这里特指常见的非实验环境下的策略评估,英文叫Program Evaluation或者Impact Evaluation。这些分析的产出主要供管理层进行战术和战略的决策,同时其场景复杂多变,不像上面提到那些已经相对标准化。从目前国内的环境来看,业务实现场景很多已经被算法工程师占领,但是并不是没有机会;而决策场景这里是目前数据科学和数据分析的主要战场。结合前面的工程能力,这里有很多机会。

 

第二个基本点就是实验设计和分析能力。这里把实验设计单独列出来是因为实验的分析其实是由实验的设计决定的。有什么样的设计,就有对应的分析方法。实验是数据科学的独占领域,对于理论、算法和工程都有较高要求,也是数据科学领域的一个主要护城河。

 

大家可能会问,这么多领域,怎么学的过来呢?这里给大家推荐一本集合了这三个领域的新书,《数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow》,围绕三个领域给出了大量的方法论和最佳实践,快手副总裁宋世君和Facebook首席工程师王益作序,作者均为国内一线互联网企业的数据科学家,经验极为丰富,书里所有的应用场景均来自真实的商业环境,强调实用,操作性强,还提供了github(点击阅读全文跳转)的仓库可以直接下载jupyter notebook,方便读者练习。

 

作者简介:

谢梁 经济学博士,腾讯QQ浏览器副总经理、QQ浏览器数据负责人。CCF数据科学专委会创始委员,入选第一财经数据科学50人,清华大学商学院及香港大学商学院商业分析硕士项目指导嘉宾。曾任滴滴杰出数据科学家、美国微软云存储核心工程部首席数据科学家。

RECOMMEND

推荐阅读

《数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow》

(1)豪华作者阵容:作者全部是自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师,经验极为丰富。

(2)三维度深融合:将数据科学的3个维度——商业理解、量化模型、数据技术全面打通,涵盖数据科学的应用场景、理论支撑和技术底座。

(3)应用场景面广:本书所有数据科学应用场景均来自商业环境,强调实用、可操作性强。

(4)方法论与案例:围绕3大主题给出了大量方法论和最佳实践,方法论与案例的背景、代码、解读等模块深度融合。

点击链接了解详情并购买


扫码关注【华章计算机】视频号

每天来听华章哥讲书

更多精彩回顾

书讯 | 7月书讯(下)| 读书开启下半年

书讯 | 7月书讯(上)| 读书开启下半年

资讯 | 《数据安全法》表决通过!最新解读来了

书单 | 2021半年盘点,不想你错过的重磅新书

干货 | 详解数据资产的8大重要特征

收藏 | 一文了解滴滴与蚂蚁金服开源共建的SQLFlow

上新 | 【新书速递】打通数据科学三要素——数据科学实战性手册

赠书 | 【第63期】机器人时代已来!推荐几本机器人学硬核好书

点击阅读全文下载

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值