Python数据分析实战(1)数据分析概述

Python实战社群

Java实战社群

长按识别下方二维码,按需求添加

扫码关注添加客服

进Python社群▲

扫码关注添加客服

进Java社群

作者丨Corley

源自丨快学python(ID:kxpython)

一、入门数据分析

1.大数据时代的基本面

大数据产业发展现状:现在数据已经呈现出了爆炸式的增长,每一分钟可能就会有:

  • 13000+个iPhone应用下载

  • Twitter上发布98000+新微博

  • 发出1.68亿+条Email

  • 淘宝双十一10680+个新订单

  • 12306出票1840+张

在大数据时代,出现了三大变革:

  • 从随机样本到全量数据

  • 从精确性到混杂性

  • 从因果关系到相关关系

举一个典型的例子:男士到超市买尿布会顺带买一些啤酒,通过大数据分析出的结果促使超市在尿布的货架附近放一些啤酒,从而增大销量,买尿布与买啤酒之间没有因果关系,但是存在着某种相关关系。

国内大数据应用状况如下(来自CSDN):

可以看到,大数据的应用已经具有一定规模,但是还有很大的发展空间。

人才方面的需求主要包括:

  • 数据分析师

    • 统计分析

    • 预测分析

    • 流程优化

  • 大数据工程师

    • 平台开发

    • 应用开发

    • 技术支撑

  • 数据架构师

    • 业务理解

    • 应用部署

    • 架构设计

之所以要学习数据分析,是因为数据正变得越来越常见和廉价,分析可以为数据提供稀缺且附带额外价值的服务。

2.数据分析师职业前景

数据分析师需要解决的问题:

  • 预估需求、分配产能 在大数据时代,更需要解读数据的能力。Q:烤箱的产能有限,该选择生产哪些种类的面包? A:列出最受欢迎的几种面包,优先生产明星商品。关键是找出明星商品,这需要统计出面包的总营业额,再算出每种面包占总营业额的相对比例,优先生产能囊括七成营业额的产品组合。这会用到统计的次数分配表和直方图,此种分析法也称为ABC分析法,如下:

  • 评估行销方案成效 统计并不是分析数据就好了,从分析的结果推测该如何影响顾客的行为,并且将之拟定为具体的商业计划,并据此行动才是关键。Q:想在网上销售面包,哪一种广告比较有效? A:写出两种文案,分别广告一段时间看看成效如何。要比较广告成效,最好的方法是用统计的随机对照实验,让两种广告随机出现,一段时间后,观察哪种广告的效果比较好,再大范围运用效果比较好的广告。

  • 产品品管 发现结果以及形成结果的原因之间的关系非常重要。Q:怎么从面包判断,面包师傅有没有偷工减料? A:抽查几个面包,秤秤看重量差距有没有过大。你需要先知道面包的平均重量,再对面包进行抽样,看看面包的重量是否呈现常态分布的钟形曲线?若是偏离曲线,就可能暗示面包品管有问题。如下:

一名好的数据分析师是一个好的产品规划者和行业的领跑者;在IT企业,优秀的数据分析师很有希望成为公司的高层。

数据分析师的工作流程如下:

数据分析师的三大任务:

  • 分析历史

  • 预测未来

  • 优化选择

数据分析师要求的8项技能:

  • 统计学

    • 统计检验、P值、分布、估计

  • 基本工具

    • Python

    • SQL

  • 多变量微积分和线性代数

  • 数据整理

  • 数据可视化

  • 软件工程

  • 机器学习

  • 数据科学家的思维

    • 数据驱动

    • 问题解决

数据分析师要求的三大能力:

  • 统计学基础和分析工具应用

  • 计算机编码能力

  • 特定应用领域或行业的知识

典型的数据分析师的成长历程:

3.成为数据分析师之路

成为数据分析师的自我修养:

  • 敏感

  • 探究

  • 细致

  • 务实

数据分析师需要具备的技能如下:

  • 熟悉Excel数据处理

  • 数据敏感度较强

  • 熟悉公司业务和行业知识

  • 掌握数据分析方法

    • 相关分析法

    • 回归分析法

    • 聚类分析法

    • 判别分析法

    • 主成分分析法

    • 因子分析法

    • 对应分析法

    • 时间序列

    • 对比分析法

    • 分组分析法

    • 交叉分析法

    • 结构分析法

    • 漏斗图分析法

    • 综合评价分析法

    • 因素分析法

    • 矩阵关联分析

    • 基本分析方法

    • 高级分析方法

在不同行业数据分析从业人员的工作内容和职责:

  • 从事数据分析的工作

    • 学做日报

    • 日销、库存类的表

    • 产品销售预测

    • 库存计算和预警

    • 流量分析相关表

    • 复盘

  • 数据分析挖掘工作人员

    • 给产品优化提供数据支持

    • 验证产品改进效果

    • 为高层提供邮件和报表

  • 互联网+分析

    • KPI指标监控

    • 各种周期性报表

    • 针对某一业务问题做分析报告

    • 针对业务进行线下建模和分析

数据分析很重要的学科基础是数学,但是数学不好也没有关系,可以用Python来帮助学习:Python不仅是一门编程语言,而且是数据挖掘机器学习等技术的基础,方便建立自动化的工作流;Python入门不难,它对数学要求并不是太高,重要的是需要知道如何用语言表达一个算法逻辑;Python有很多封装好的工具库和命令,我要做的是用哪些数学方法解决一个问题,并构建出来。

要想快速入门Python数据分析,就要使用好Python相关的工具包:(1)Python最大的特点是拥有一个巨大而活跃的科学计算社区,采用python进行科学计算的趋势也越来越明显。(2)由于Python有不断改良的库,使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只是用Python这一种语言去构建以数据为中心的应用程序,其中:

  • 常用数据分析库

    • Numpy

    • Scipy

    • Pandas

    • matplotlib

  • 常用高级数据分析库

    • nltk

    • igraph

    • scikit-learn

(3)作为一个科学计算平台,Python的能够轻松集成C、C++以及Fortran代码。

数据分析的准备工作:

  • 了解数据

  • 数据清洗与初步分析

  • 绘图与可视化

  • 数据聚合与分组处理

  • 数据挖掘

数据分析与数据挖掘的常用算法:

  • 线性回归

  • 时间序列分析

  • 分类算法

  • 聚类算法

  • 降维算法

学习和从事数据分析工作的方法为:

  • 勤思考

  • 多动手

  • 多总结

结语

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对小编的支持。

程序员专栏 扫码关注填加客服 长按识别下方二维码进群

近期精彩内容推荐:   看黄片,起诉网站,可尼玛太秀了 知乎高赞:35岁失业的中年人都去了哪儿? 求求你别再用offset和limit分页了 Python 代码实现验证码识别,很稳


在看点这里好文分享给更多人↓↓
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值