Python数据分析概述

一、学习目标

(1)掌握数据分析的概念流程。

(2)了解数据分析的应用场景。

(3)了解数据分析的常用工具。

(4)了解python在数据分析领域的优势。

(5)了解python数据分析的常用库。

(6)掌握在Windows、linux系统安装Anaconda的方法。

(7)掌握jupyter notebook的常用功能。

二、思维导图

1.1认识数据分析

       数据分析是大数据技术的重要组成部分。近年来,随着大数据技术的逐渐发展,数据分析技能被认为是数据科学领域中数据从业人员需要具备的技能之一。与此同时,数据分析师也成了时下最热门的职业之一。掌握数据分析技能是一个循序渐进的过程,明确数据分析概念、流程和应用场景等相关知识是掌握数据分析的第一步。

1.1.1掌握数据分析的概念

      数据分析通常是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息并形成结论,对数据加以详细研究和概括总结的过程。随着计算机技术的全面发展,企业生产、收集存储和处理数据的能力大大提高,数据量与日俱增。而在现实生活中,需要对这些繁多、复杂的数据通过统计分析进行提炼,以此研究出数据的发展规律,进而帮助企业管理层做出决策。
      广义数据分析是指依据一定的目标,通过统计分析、聚类、分类等方法发现大量数据中的目标所隐含信息的过程。广义数据分析包括狭义数据分析和数据挖掘。狭义数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。数据挖掘则是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用智能推荐、关联规则、分类模型和聚类模型等技术,挖掘信息潜在价值的过程。广义数据分析的概念如图所示

1.1.2掌握数据分析的流程

      数据分析已经逐渐演化为一种解决问题的过程, 甚至是一种方法论。虽然每个公司都会根据自身需求和目标创建最适合的数据分析流程, 但是数据分析的核心步骤是一致的。    
如图是一个典型的数据分析流程。

1.需求分析

      需求分析一词来源于产品设计,主要是指从用户提出的需求出发,挖掘用户内心的真实意图,并转化为产品需求的过程。产品设计的第一步就是需求分析,也是非常关键的一步,因为需求分析决定了产品方向。错误的需求分析可能导致产品在实现过程中走向错误方向,甚至对企业造成损失。
      需求分析是数据分析的第一步,也是非常重要的一步,决定了后续的分析方向和方法。需求分析的主要内容是根据业务、财务和生产等部门的需要,结合现有的数据情况,提出数据分析需求的整体方向、内容,最终和需求方达成一致。

2.数据获取

      数据获取是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。获取的数据主要有两种:网络数据与本地数据。网络数据是指存储在互联网中的各类视频、图片、语音和文字等信息;本地数据则是指存储在本地数据库中的生产、营销和财务等系统的数据。本地数据按照数据产生的时间又可以划分为两部分,分别是历史数据与实时数据。历史数据是指系统在运行过程中遗存下来的数据,其数据量随系统运行时间的增加而增大;实时数据是指最近一个时间周期(如月、周、日、小时等)内产生的数据。
      在数据分析过程中,具体使用哪种数据,需要依据需求分析的结果而定。  

3.数据预处理

      数据预处理是指对数据进行数据合并、数据清洗、数据标准化和数据变换等操作,并将数据用于分析与建模的过程。其中,    数据合并可以将多张互相关联的表格合并为一张; 数据清洗可以去除重复、缺失、异常、不一致的数据;数据标准化可以去除特征间的量纲差异;数据变换则可以通过离散化、哑变量处理等技术使数据满足后期分析与建模的要求。在数据分析的过程中,数据预处理的各个过程互相交叉,并没有明确的先后顺序。

4.分析与建模

      分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及智能推荐关联规则、分类模型、聚类模型等模型与算法,发现数据中有价值的信息,并得出结论的过程。分析与建模的方法按照目标不同可以分为几大类。如果分析目标是描述客户行为模式的,那么可以采用描述型数据分析方法,同时还可以考虑关联规则、序列规则和聚类模型等。如果分析目标是量化未来一段时间内某个事件发生概率的,那么可以使用两大预测模型,即分类预测模型和回归预测型。在常见的分类预测模型中,目标特征通常为二元数据,代与、否、信用好坏等。在回归预测模型中,目标特征通常为连续型数据,常见的有股票价格等。

5.模型评价与优化

      模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价模型性能优劣的过程。常用的聚类模型评价指标有ARI(调兰德系数)评价法、AMI(调整互信息)评价法、V-measure评分、 FMI 评价法和轮廓系数评价法等。常用的分类模型评价指标有准确(Accuracy)、精确率(Precision)、召回率(Recall )、F1值(F1 Value)、接受者操作特性(Receiver Operating Chara cteristic,ROC )曲线和ROC曲线下方的面积(Area Under Curve,AUC)等。常用的回归模型评价指标有平均绝对误差、均方误差、中值绝对误差和可解释方差等。
      模型优化则是指模型性能在经过模型评价后已经达到了要求,但在实际生产环境应用过程中,发现模型的性能并不理想,继而对模型进行重构与优化的过程。在多数情况下,模型优化的过程和分析与建模的过程基本一致。

6.部署

      部署是指将数据分析结果与结论应用至实际生产系统的过程。根据需求的不同,部署阶段可以提供一份包含现状具体整改措施的数据分析报告,也可以提供将模型部署在整个生产系统上的解决方案。在多数项目中    数据分析师提供的是一份数据分析报告或一套解决方案,实际执行与部署的是需求方。

1.1.3了解数据分析的应用场景

      企业使用数据分析解决不同的问题,实实际的数据分析的应用场景主要分为客户分析、营销分析、社交媒体分析、网络安全、设备管理、交通物流分析和欺诈行为检测7类。

1.客户分析

      客户分析(CustomerAnalytics)主要根据客户的基本信息进行商业行为分析。首先界定目标客户,根据目标客户的需求、性质、所处行业的特征、经济状况等基本信息,使用配统计分析方法和预测验证法分析目标客户,提高销售效率。其次了解客户的采购过程,根据客户采购类型、采购性质进行分类分析,制定不同的营销策略。最后可以根据已有的客户特征进行客户特征分析、客户忠诚度分析、客户注意力分析、客户营销分析和客户收益分析。通过有效的客户分析能够掌握客户的具体行为特征,将客户细分,使得运营策略达到最优,提升企业整体效益。

2.营销分析

      营销分析(MarketingAnalytics)囊括产品分析、价格分析、渠道分析、广告与促销分析这4类分析。产品分析主要是竞争产品分析,通过对竞争产品的分析制定自身产品策略。价格分析可以分为成本分析和售价分析。成本分析的目的是降低成本;售价分析的目的是预测模制定符合市场需求的价格。渠道分析是指对产品的销售渠道进行分析,确定最优的渠道配二元数比。广告与促销分析则能够结合客户分析,实现销量的提升、利润的增加。

3.社交媒体分析    

      社交媒体分析(SocialMediaAnalytics)是指以不同的社交媒体渠道生成的内容为基础,实现不同社交媒体的用户分析、访问分析和互动分析等。用户分析主要根据用户注册信息、用户登录平台的时间点和用户平时发表的内容等用户数据,分析用户个人画像和行为特征; 访问分析则通过用户平时访问的内容分析用户的兴趣爱好,进而分析潜在的商业价值;互动分析根据互相关注对象的行为预测该对象未来的某些行为特征。同时,社交媒体分析还类模能为情感和舆情监督提供丰富的资料。 

  4.网络安全

大规模网络安全(Cyber Security)事件的发生,例如,2017年5月席卷全球的WannaCry病毒,让企业再一次意识到网络攻击发生时预先快速识别的重要性。传统的网络安全防护用主要依靠静态防御,处理病毒的主要流程是发现威胁、分析威胁和处理威胁,这种情况下,往往在威胁发生以后系统才能做出反应。新型的病毒防御系统可使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑行为,做到未雨绸缪。

5.设备管理

      设备管理(FacilityManagement)同样是企业关注的重点。设备维修一般采用标准修理法和检查后修理法等方法。其中,标准修理法可能会造成设备过剩修理,修理费用高;虽然检查后修理法决了修理成本过高问题,但是修理前的准备工作繁多,设备的停歇时间过长。目前企业能够通过物联网技术收集和分析设备上的数据流,包括连续用电、零部件温度、环境度和污染物颗粒等多种潜在特征,建立设备管理模型,从而预测设备故障,合理安排预防性的维护,以确保设备正常工作,降低因设备故障带来的安全风险。

6.交通物流分析

      物流是物品从供应地到接收地的实体流动过程,是将运输、储存、装卸、包装、加工、配送和信息处理等功能有机结合起来从而满足用户要求的过程。对于交通物流分析 Transport and Logistics Analytics ),用户可以通过业务系统和定位系统获得数据,使用数据构建交通状况预测型,有效预测实时路况、物流状况、车流量、客流量和货物吞吐量,进而提前补货,制定库存管理策略。

1.2熟悉python数据分析的工具

1.2.1了解数据分析常用工具

比较项目pythonRMATLAB
学习难易程度接口统一、学习曲线平缓接口众多,学习曲线陡峭自由度大,学习曲线交为平缓
使用场景数据分析、机器学习、科学数据可视化、数据图像处理、Web应用、网络爬虫、系统维护等。系统分析、机器学习、科学数据可视化等。矩阵运算、数值分析、科学数据可视化、机器学习、符号计算、数字图像处理、数字信号处理、仿真模拟等
第三方支持拥有大量的第三方库,能够简便地调用C、C++、Fortran、 Java 等其他语言的程序拥有大量的包,能够调用 C、C++、Fortran、Java等其他语言的程序拥有大量专业的工具箱,在新版本中加入了对 C、C++、Java的支持
流行领域工业界工业界与学术界学术界
软件成本免费免费免费

1.2.2了解python数据分析的优势

(1)语法简单精炼。

(2)含有大量功能强大的库。

(3)功能强大。

(4)python不仅适用于研究和原型构建,而且适用于构建生产系统。

(5)python是一门胶水语言。

1.2.3了解python数据分析常用库

1.Numpy: Numpy是Numerical python的缩写,是一个python科学计算的库。

2.SciPy:SciPy是基与python的开源库,是一组专门解决科学计算中各种标准问题的模块的集合。

SciPy的模块及其简介

模块名称简介
scipy.integrate数值积分和微积分方程求解器
scipy.linalg扩展了由 numpy.linalg提供的线性代数求解和矩阵分解功能
scipy.optimize函数优化器(最小化器)以及根查找算法
scipy.signal信号处理工具
scipy.sparse稀疏矩阵和稀疏线性系统求解器
scipy.specialSPECFUN [这是一个实现了许多常用数学函数(如伽马函数)的Fortran库]的包装器
scipy.stats包含检验连续和离散概率分布(如密度函数、采样器、连续分布函数等)的函数与方法、各种统计检验的函数与方法,以及各类描述性统计的函数与方法

3.pandas:是python的数据分析核心库,最初作为金融数据分析工具二而被开发出来。

4.Matplotlib:是比较流行的用于绘制数据图表的python库,主要用于绘制2D图形。

5.seaborn:是基于Matplotlib的数据可视化python库,它提供了一种高度交互的界面,便于用户制作出各种有吸引力的统计表。

6.pyecharts:可以展示动态交互图,对于展示数据更加方便。

7.scikit-learn:可以提供用户在各种环境下重复使用。

1.3安装python的Anaconda发行版

1.3.1了解python的Anaconda发行版

Python 的 Anaconda发行版主要有以下几个特点。
(1)包含众多流行的用于科学、数学、工程和数据分析的Python库。(2)完全开源。
(3)免费使用,但额外的加速和优化是收费的。对于学术用途,可以申请免费的许可证(License)。
(4)支持Linux、Windows、macOS;支持 Python 的 2.6、2.7、3.4、3.5、3.6和3.8等版本,可自由切换。
因此,推荐数据分析初学者(尤其是Windows系统用户)安装Anaconda发行版。读者可以访问 Anaconda官方网站下载适合自身的安装包。

1.3.2在Windows系统中安装Anaconda发行版

      进入Anaconda官方网站,下载合适Windown系统的Anaconda安装包,选择Python3.8。安装Anaconda的具体步骤如下。

(1)双击下载好的Anaconda安装包,再单击如图的‘Next’(下一步)按钮进入下一步。

(2)单击图1-4所示的‘I Agree’(我同意)按钮,同意相关协议并进入下一步。

(3)选择图1-5所示的‘All Users’(requires admin privileges)【所有用户(需要管理员权限)】单击按钮,单击‘Next’按钮进入下一步。

(4)单击‘Browse’(浏览)按钮,选择合适的安装路径安装Anaconda,如图1-6所示,选择完成后单击‘Next’按钮,进入下一步。

(5)图1-7所示的两个复选框分别代表允许将Anaconda添加到系统路径(PATH)环境变量中、Anaconda使用的python版本为3.8。全部勾选后,单击‘Install’(安装)按钮,开始安装。

(6)完成步骤(5)后单击图1-8所示的‘Finish’(完成)按钮,完成Anaconda安装。

小结

       本章先介绍了数据分析的概念、流程、应用场景和常用工具,阐述了使用Python进行数据分析的优势,列举说明了Python数据分分析常用库的功能。紧接着阐述了Anaconda 的特点,实现了在Windows 和 Linux 两个系统充中安装Anaconda。最后介绍了Python数据分析工具Jupyter Notebook 的常用功能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值