转行数据分析之前,希望你能看看这篇『长文+干货』(2)

数据分析这个词,这个职业其实很久就已经出现,只是在数据量越来越大的今天它的地位也越来越重要,才会引起大家的关注。

但我还是建议你将这几个词一起来看:数据分析、数据挖掘、人工智能和数据科学

真的会有人分不清楚这几个职位,而且在实际工作中,跨领域干活的事情更不在少数。

数据分析

先从最简单的开始说起

从它的字面意思来看:数据分析=数据+分析

首先你得有获取数据的能力,当你的分析需要某些数据来进行支撑验证的时候,你得知道这些数据从哪获取,怎么获取

这个获取说的可不简单指的是从某个网站下载,从某鱼某宝上买;更多指的是你具备这种数据获取的能力,具备对分析需要的数据类型的判断。

说到这,你可能要反驳我了:项目进度当然是越快越好,只要能搞到项目所需的数据就行了呗。

你如果能确保你以后项目中需要的数据你都可以通过捷径搞到手,那没问题。可问题是,大多数同学可以吗?

我曾经因为工作需要爬一批微博的数据,淘宝要价300+,一次性的不包售后。

后来我在网上找的代码,自己修修补补之后搞定了数据需求,后来领导知道这事发了300奖金给我。

领导好是一个方面,若你将这件事情放在任何一个环境下,你具备这个能力,别的同事不具备,在做项目的时候领导会怎么对待你?

别跟我提什么能者多劳的事情,现在的领导都不傻,卸磨杀驴这种事情不是人人都愿意去做的。

说完数据我们再来看分析

你要说分析重不重要,小一觉得相当重要!

通过观察数据提出假设是分析,通过数据指标验证假设是否成立是分析,通过数据规律进行预测也是分析。

分析是对数据的观察利用,验证现有的数据结论,并提出合理的假设预测未来趋势。当然,这个合理程度和业务有很大关系,我们后面会说到。

总的来说:数据分析的目的是解决问题,通过数据验证我们提出的假设,并根据数据规律做出相应的预测规划。

多说一句:对于某些招聘网站上要求数据分析师具备熟悉xxx算法,掌握xxx模型的能力,我只劝你一句,若你具备它所说的能力,往下翻,把你的定位放在下面两个,你值得更好的。

数据挖掘

这个话题我说不了多少,资历不够我还是知道的,如果有些地方您觉得我说的不对,您就当我在瞎瘠薄说。

直接说说它和上面一个的区别吧。

如果说数据分析最后会对数据规律进行预测分析,那只能说这种预测,是很有限的。

但是数据挖掘不一样,有数学理论支撑,有大量数据集进行验证,准确率和信服度还是挺高的。

要说和数据分析最大的区别,那肯定就是各自的目的了。

数据挖掘的目的是通过大量数据样本,挖掘数据之间的内在关联,预测未来时间的数据变化。

最明显的区别就是数据分析更注重已知信息的分析,数据挖掘更注重未知信息的挖掘

如果说你现在是一个数据分析师,或者准备转行做数据分析师,那我建议你最好能够将你的目标定位放在这,数据挖掘上。

数据挖掘可以转数据分析,但是数据分析不一定能转数据挖掘。当然也没有数据挖掘师这么傻去转数据分析。

人工智能

这个话题就泛泛而谈了

就目前社会的科技发展来看,人工智能的前景很大。

基本上语音识别、图像识别、机器人、自然语言处理、智能搜索这些领域都属于人工智能。

但是记住一点:人工智能必须具备数据挖掘能力,其次是机器学习、深度学习这些你也得会。

这里又提到了两个方向:机器学习和深度学习。不理解的话你暂且就把它当成另一个数据挖掘来看。

数据科学

最后是数据科学,这个词,听着好像很高大上,其实人家本来就很高大上啦。

对于这个学科我建议你这样理解:

Python 中有一个包叫Pandas,是专门进行数据处理的

同样,还有这样一个包叫Scikit-learn,是进行数据挖掘的

还有像爬虫、可视化Seaborn|matplotlib、线性代数scipy、深度学习keras 等等这样的包,数据科学都涵盖进去了。

ok,数据科学就是一个涵盖数据处理、可视化、数据挖掘、深度学习等这些内容的学科**,理解就好。**


数据分析的流程是什么?


想必对很多同学,尤其是还在学校的同学来说,会对这个问题比较感兴趣。

那么在实际工作中,一个数据分析项目,它的实现流程究竟是怎样的?

小一我翻了下这两三年自己在工作中遇到的大小项目,并且和同事进行了充分的交流,差不多总结了六个步骤。

分析业务指标,明确数据内容

很惊讶吧,第一个竟然是这个。

在实际遇到一个项目的时候,往往领导给你的任务,是一个大的目标,比如:

**领导:**小一啊,我们这个月比上个月的用户投诉略有增多,你来分析一下是什么原因,顺便预测一下下个月我们应该重点抓哪些指标“

像这种,就需要先了解具体业务了

用户为什么会投诉?产品哪里做的让用户不满意?用户不满意的具体数据有哪些?这些数据是怎么生成的?不同粒度的数据又表示什么?

另外别忘了老板的终极目标(xxx,这是顺便一下就能预测出来的吗…)

提出问题假设,建立分析方法

当你已经知道你的目标和哪些数据有关系,却不能确定哪个是主要问题,哪个是次要的时候,你就到了第二阶段。

如果你时间允许的话,我建议你可以建立对照组进行对照试验。

比如上面的问题,你就可以假设用户投诉和资费太贵有关、和产品质量有关系、和售后服务有关系等

另外,如果你有历史的投诉数据,你也可以提出基于时间维度的假设:不同月份受天气影响太大,造成用户投诉(如果你真的把原因归结为天气,希望你不会挨老板毒打吧)

利用采集工具,获取相关数据

你已经提出了问题,也知道你的问题会和哪些数据有关联,这个时候你需要数据,需要尽可能多的数据去验证你的结论,让你的结论更有信服力,能被老板接受。

一般在大公司里面,会有专门的人负责对接取数这个活,你只需要提需求就完事了。

在小公司里面,往往你就是自己的主宰。

想要数据?自己去取。

数据不够?自己去找。

我找不到?您真厉害(要你何用)

你可以通过一些数据采集工具或者自己写爬虫脚本。

这里,小一的经验是:

如果你数据量很小,就几百几千条那种,爬虫就没必要了,找一个八爪鱼或者火车头这类的采集工具,效率很高。

如果你数据量略大,需要定时获取那建议你学习一下Python 爬虫

“不会Python,不会爬虫怎么办?”

“往下看,后面有你想要的!”

通过编程手段,实现数据清洗

在你的一波极限操作(差点被辞退)之下,你终于拿到了想要的数据。

仔细一看,监控系统每小时保存一个记录文件,上个月一共30*24个文件,文件也不大,就几MB的样子,但顶不住它量大啊。

咋办?

所以在这一步,掌握至少一门编程语言是基本要求。R、Python都可,推荐后者,后面会细说

在数据清洗的过程中,你需要面对这些问题:

缺失值处理、异常值处理、重复值处理,还有系统偶尔抽风后保存的垃圾数据。

提取有用信息,进行数据分析

现在万事俱备,终于到你熟悉的领域了。

你利用基本的统计学方法进行数据统计,分析每一个指标的数据分布,对比上月的数据你还计算了不同指标的环比情况。

你找到了反映用户投诉的具体指标,确实是这个月这些指标波动比较大影响的,然后你又通过对比不同年份同时期的数据去证实你的结果。

最后,你利用数据分析软件建立了一个简单的预测模型,通过历年数据预测这个月的指标,结果发现相差不大。

受此鼓舞的你又通过模型预测了下个月的指标情况,信心满满。

合理数据展现,输出分析报告

当你一筹莫展不知道怎么写你的分析报告时,你的同事给你发来了“xxxx数据分析报告模板”。

当你看完模板你知道写报告需要这些:图表展示+数据论证+结果预测

你原想着长篇大论说一通,最后却被你精炼到了五六页PPT 上

由于同事模板助攻的到位,你只需要换几张图贴一些数据表,然后将最初的目标原因解释清楚,形成一个稍有信服力的结论

最后附上你预测的结果,来一段合理又不偏颇的建议,你的报告就搞定了。


如何入门数据分析?


流程说完了,还是得来点实际的干货,不然又被你们说我水文章了。

这部分主要介绍:如何入门+学习方法

1. 确定自己的方向

在数据分析中,有这样两种类型:偏业务型的数分和偏技术型的数分。

偏业务型的我不太好说,因为我不是业务出身。我了解的偏业务型更多的是在和市场的人打交道,针对市场的促销活动分析用户痛点,提供有价值的分析结果?(是问号,我没打错)

针对运营的周、月、季度、年指标进行输入输出,完美阐释了“我们不生产数据,我们只是数据的搬运工”这句话。

偏技术型的大多都呆不久,哈哈,开个玩笑。

偏技术的会注意各种指标之间的关联,根据业务的情况相应的进行指标优化,预测业务的相应指标。

所以,偏技术型的数据分析最后干着干着就成了一名数据挖掘工程师,自然演变吧。

偏业务型的更容易入门,多了解指标看看业务相关,剩下的就是水到渠成的事情。偏技术的就需要你自己不断的学习,提高自己,尤其是算法模型,没那么简单入门。

2. 提高自己的能力

前面说的有点夸大,你也不必太紧张。数据分析这能力,有很多种途径去提升。

下面我列一下能力阶梯,想要入门的同学可以一级一级往上提升自己。

2.1 业务能力

不多介绍,看个人能力。短则一两周,长则一两个月。

业务相关的,就那么点数据,指标的含义都是早都确定好了的。能举一反三,将一个大目标分解成具体的小指标上,或将小指标确定到具体数据上去,业务能力就ok了。

2.2 Excel 相关

很多同学不把它当回事,不当回事的我暂且认为你还是学生,但凡开始工作已经接触到数据的人,你敢说你真的会用Excel 吗?

Excel 永远是数据处理的一大利器,这不仅体现在它对数据进行各种统计汇总的操作上,还体现在它的图表输出上。

相信也有很多同学通过Python 处理完数据之后,还会去用Excel 画图。

当你的数据量小(以100万行为界限),数据处理简单,数据表唯一的情况下,建议你直接用Excel,快速、方便,输出简单。

在老板眼中,可以用Excel 搞定的分析任务分分钟就能出结果!
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

img

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)

](https://i-blog.csdnimg.cn/blog_migrate/ad7909a4730b780656545eb9552a5320.png)

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)

img
  • 19
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值