初识数据分析
1. 什么是数据分析
数据分析是的工作是什么?可大致将数据分析师的工作分成三类,分别是:取数、分析和产出报告。
- 取数就是字面意思,从外部和内部获取数据,外部数据包括收集到的调研报告、网站的一些埋点数据、市场公开的数据等等,内部数据包括数据库中的数据、销售系统中的数据等等,这一工作将占用数据分析80%的时间。
- 分析工作则是数据分析师的核心,通常我们获取到的数据是冗杂且无意义的,将其转化为可以理解、有价值的数据则是数据分析师的工作,发现隐藏在大量冗杂数据中的潜在价值信息。
- 最后产出数据分析报告,因为并不是每个人都具备数据分析的能力,将数据分析的结果以简单直观的方式呈现出来,让一个不具备数据分析能力的人也能从报告中理解你分析的结果是决定数据分析成效的关键一环,哪怕数据分析的结果再好再精确,在最后的传达过程中出了问题一切都是徒劳。所以数据分析工作是一个要求有专业技能、了解业务流程还必须具备一定沟通能力的工作。
2. 数据分析应该具备哪些技能
数据分析师按照能力的需求不同可以大致分为两类:偏分析性和偏业务性的数据分析师。
- 偏数据型:更加接近于数据挖掘工程师、算法工程师和大数据工程师这种概念,这种需要较强的数据结构知识和算法知识
- 偏业务型:相较于技术性的业务性的数据分析师门槛较低,对数据分析能力没有太高要求,是大部分分析师的入门选择。
2.1 分析思考能力
特意将分析思考的能力放在了数据分析之前,那是因为不论是业务型还是技术型,数据分析的思维是分析过程中及其重要的一环。在拿到数据之后如何对数据进行分析,使用哪些方法,用什么样的流程等等都需要分析和思考的能力。如果没有这项能力你在拿到数据之后脑子中将是一团乱麻,特别是面对大量无规则数据时。
锻炼分析思考能力是必须要经历的一环,总结了三个 数据分析思维的核心:
2.1.1 结构化思维
思维流程应该是结构化的、清晰的、逻辑优美的。将问题逐步拆解,将大的难以解决的问题分解为多个利于解决的相互独立的问题,这样不仅可以降低难度还可以减少混杂因素的影响,看清各因素产生的独立影响
不能是在面对问题时思绪一团乱麻,想到一点十一点,假设都是随机没有依据的,分析都是一次性的不可复用的,目标是模糊的,分析时没有结果的。
其中较为经典的是金字塔思维,当有一个问题或者论点时首先找到其核心,核心可以是一个假设、一个问题又或者是一个原因。再对从核心出发对其进行拆解逐级向下,直到每个分论点相互独立,完全穷尽,最后使用数据对其论证。
● 核心论点,寻找金字塔的塔顶,它可以是假设,是问题,是预测或者是原因。
● 结构拆解,自上而下,将论点核心层层拆解成论点,上下之间呈现因果或依赖关系。
● MECE,相互独立、完全穷尽。论点之间避免交叉和重复,分论点们要完全穷尽。
● 验证,不论核心论点还是分论点,都应该是可量化的,用数据说话,他们必然是可验证的。
举个例子:当一个产品的销量下降,你需要找到其中的原因。
首先明确问题:产品的销量为什么会下降
对问题进行拆家:产品销量是怎么下降的?突然地还是逐渐的?突然的话是什么原因?内部or外部?缓慢的可能是什么原因?内部?外部等等
2.1.2 公式化
公式化的核心是:一切结构皆可量化。也就是说问题和论证都应该能够使用数据或者量化标准解释。
就例如:
销售额 = 销量 * 客单价
例如= 销售额 - 成本
2.1.3 业务化
数据分析应当考虑到业务流程,应当把业务放到分析考虑的因素之中。
举个简单的例子,如恶化计算一个城市共享单车的投放量?
用上面的方法,首先结构化再公式化 - 共享单车投放需要根据:不同地区人口密度、不同地区单车保有量、不同地区人群出行方式等考虑,再通过量化计算出结果。
这个过程看起来是不是挺完善、挺有说服力。但其中忽略了一个极其重要的因素:业务
因为在业务过程中单车会有损耗,会需要维修等等,所以实际需要投放的应该比刚才计算的要多,并且有可能需要持续的投放
2.2 数据分析能力
对于此的描述网络上资料众多,我就不详细描述了,只做概括。
数据分析能力的要求可大致分为:数据收集与整理、数据分析与解读、数据可视化
2.2.1 数据收集与整理数据来源识别
- 能够准确判断数据的潜在来源。
例如,在分析市场趋势时,要清楚是从企业内部销售系统、市场调研机构,还是从公开的经济数据平台获取数据更合适。要了解不同来源数据的特点,如政府统计数据具有权威性但可能更新频率较低,而企业内部交易数据具有针对性但可能存在数据质量问题。
数据采集
- 熟练掌握数据采集的方法。
对于内部数据,要知道如何从数据库(如 SQL 数据库)中提取所需数据,包括编写正确的查询语句。对于外部数据,如使用网络爬虫从网页上获取数据时,要遵循相关法律法规和网站的使用条款,并且能够准确地采集到所需的数据元素。
- 数据清洗
能够处理数据中的噪声、缺失值和异常值。例如,当遇到数据集中的缺失值时,要根据数据的性质决定是采用填充(如均值填充、中位数填充等)还是删除缺失值的策略。对于异常值,要判断是数据录入错误还是真实的极端值,并采取合适的处理方法,如重新验证数据或者将异常值单独分析。
2.2.2 数据分析与解读
- 基本统计分析
熟练掌握基本的统计分析方法,如均值、中位数、标准差、相关性分析等。这些方法可以帮助快速了解数据的集中趋势、离散程度和变量之间的关系。例如,通过计算不同产品的销售额均值和标准差,可以判断产品销售的稳定性。
- 数据挖掘与机器学习算法
了解数据挖掘算法(如分类算法中的决策树、聚类算法中的 K - Means 等)和机器学习算法(如线性回归、逻辑回归、神经网络等)的原理、适用场景和局限性。例如,在进行客户分类时,可以根据数据特点选择合适的聚类算法将客户划分为不同的群体,以便进行个性化营销。
- 工具使用
熟练使用数据分析工具,如 Excel(用于简单的数据处理和分析)、SQL(用于数据库查询和数据操作)、Python(及其数据分析库如 Pandas、NumPy、Matplotlib 等)或者 R 语言等。能够根据项目需求选择合适的工具来高效地完成数据分析任务。
数据结构与类型理解
- 要理解不同的数据结构
如结构化数据中的表格形式、非结构化数据中的文本、图像等和数据类型(如数值型、字符型、日期型等)。例如,在分析客户关系管理系统中的数据时,要清楚客户姓名是字符型数据,购买金额是数值型数据,购买日期是日期型数据,并且根据数据类型采用不同的分析方法。
- 数据语义解读
深入理解数据背后的实际意义。例如,在销售数据中,销售额的增长可能不仅仅是销售数量的增加,还可能与产品价格调整、促销活动等因素有关。要能够透过数据表面看到业务流程中的各种关联,从而准确解读数据所反映的业务状态。
2.2.3 数据可视化
- 图表选择
根据数据特点和分析目的选择合适的可视化图表。例如,用柱状图展示不同类别之间的数量对比,用折线图展示时间序列数据的变化趋势,用饼图展示各部分占总体的比例关系等。
- 可视化设计
在制作可视化图表时,要注重设计的美观性、可读性和准确性。例如,合理选择颜色搭配,确保标签清晰可辨,数据标注准确无误,以便观众能够轻松理解可视化所传达的信息
2.3 沟通表达能力
2.3.1 内部沟通
-
理解需求:能够准确理解业务部门的需求是关键。例如,市场部门可能希望通过数据分析来确定下一季度的推广策略,数据分析师需要与市场人员深入交流,明确他们是想要了解市场份额的增长潜力、不同渠道的推广效果,还是目标客户群体的新特征等具体需求。
-
解释结果:当向业务部门呈现数据分析结果时,要用业务人员能够理解的语言。比如,不能只是说 “我们的模型显示 R - squared 值为 0.8”,而是要解释为 “我们发现这个模型能够解释 80% 的业务变化,这意味着我们对销售业绩的预测有较高的可信度,根据这个模型,我们建议在接下来的营销活动中重点关注某些客户群体”。
2.3.2 团队沟通
- 数据获取和协商处理:在获取和处理数据时,需要与技术团队(如数据库管理员、数据工程师等)沟通。如果数据分析师需要特定格式的数据,或者在数据提取过程中遇到问题(如数据缺失、数据格式错误等),就需要清晰地向技术团队表达问题所在并共同寻找解决方案。例如,数据分析师可能需要从海量的日志文件中提取特定时间段的用户行为数据,要向技术人员说明数据的筛选条件、时间范围以及期望的输出格式等。
- 算法模型沟通:当涉及到复杂的数据分析算法和模型开发时,要与技术团队共同探讨其可行性和优化方向。例如,在构建预测模型时,数据分析师和技术团队需要讨论是采用线性回归模型还是更复杂的神经网络模型,要从数据特点、计算资源、预测精度要求等多方面进行交流。
2.3.3 客户沟通
- 项目需求:在承接外部数据分析项目时,要与客户深入沟通项目需求。这包括了解客户所在行业的特点、业务目标、数据隐私要求等。例如,为一家金融机构做风险评估分析,需要明确客户是关注信用风险、市场风险还是操作风险,以及他们对数据安全和隐私保护的严格程度,以确保在整个数据分析过程中符合客户要求。
- 结果汇报:向外部客户或合作伙伴汇报数据分析结果时,要做到简洁明了且具有说服力。除了展示数据和分析结论外,还要提供切实可行的建议。例如,为一家零售企业的合作伙伴分析销售数据后,不仅要告诉对方哪些产品在哪些地区销售不佳,还要提出改进产品定位、调整营销策略或者优化供应链等具体建议,并且要能够用通俗易懂的语言和直观的图表来阐述这些内容。