Python数据分析与应用------数据分析概述

1.1数据分析概述

1.认识数据分析

数据分析的概念

    广义的数据分析包括狭义数据分析和数据挖掘。
    狭义的数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。
    数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。

在这里插入图片描述

数据分析的流程

在这里插入图片描述

了解数据分析应用场景

1.客户分析
主要是客户的基本数据信息进行商业行为分析,
首先,界定目标客户,根据客户的需求,目标客户的性质,所处行业的特征以及客户的经济状况等基本信息使用统计分析方法和预测验证法,分析目标客户,提高销售效率。
其次了解客户的采购过程,根据客户采购类型、采购性质进行分类分析制定不同的营销策略。
最后还可以根据已有的客户特征,进行客户特征分析客户忠诚分析、客户注意力分析、客户营销分析和客户收益分析。
2.营销分析:

囊括了产品分析,价格分析,渠道分析,广告与促销分析这四类分析。
产品分析主要是竞争产品分析,通过对竞争产品的分析制定自身产品策略。
价格分析又可以分为成本分析和售价分析,成本分析的目的是降低不必要成本,售价分析的目的是制定符合市场的价格。
渠道分析目的是指对产品的销售渠道进行分析,确定最优的渠道配比。
广告与促销分析则能够结合客户分析,实现销量的提升,利润的增加。
在这里插入图片描述

3.社交媒体分析
以不同社交媒体渠道生成的内容为基础,实现不同社交媒体的用户分析,访问分析,互动分析等。同时,还能为情感和舆情监督提供丰富的资料。

用户分析主要根据用户注册信息,登录平台的时间点和平时发表的内容等用户数据,分析用户个人画像和行为特征。
访问分析则是通过用户平时访问的内容,分析用户的兴趣爱好,进而分析潜在的商业价值。
互动分析根据互相关注对象的行为预测该对象未来的某些行为特征。

4.网络安全

新型的病毒防御系统可使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式,做到未雨绸缪。
在这里插入图片描述

5.设备管理

通过物联网技术能够收集和分析设备上的数据流,包括连续用电、零部件温度、环境湿度和污染物颗粒等无数潜在特征,建立设备管理模型,从而预测设备故障,合理安排预防性的维护,以确保设备正常作业,降低因设备故障带来的安全风险。

6.交通物流分析

物流是物品从供应地向接收地的实体流动。通过业务系统和GPS定位系统获得数据,对于客户使用数据构建交通状况预测分析模型,有效预测实时路况、物流状况、车流量、客流量和货物吞吐量,进而提前补货,制定库存管理策略。

7.欺诈行为检测

身份信息泄露盗用事件逐年增长,随之而来的是欺诈行为和交易的增多。公安机关,各大金融机构,电信部门可利用用户基本信息,用户交易信息,用户通话短信信息等数据,识别可能发生的潜在欺诈交易,做到提前预防未雨绸缪。

了解数据分析常用工具

在这里插入图片描述

2.熟悉Python数据分析的工具

了解Python数据分析的优势

在这里插入图片描述

了解Python数据分析常用类库

1. IPython——科学计算标准工具集的组成部分
 是一个增强的Python she11,目的是提高编写、测试、调试Python代码的速度。
主要用于交互式数据并行处理,是分布式计算的基础架构。
提供了一个类似于Mathematica的HTML笔记本,一个基于Qt框架的GUI控制台,具有绘图、多行编辑以及语法高亮显示等功能。
2. NumPy(Numerical Python)——-—Python科学计算的基础包
快速高效的多维数组对象ndarray。
对数组执行元素级的计算以及直接对数组执行数学运算的函数。
读写硬盘上基于数组的数据集的工具。
 线性代数运算、傅里叶变换,以及随机数生成的功能。
 将C、C++、Fortran 代码集成到 Python的工具。
3. SciPy——专门解决科学计算中各种标准问题域的模块的集合

在这里插入图片描述

4. Pandas———数据分析核心库
提供了一系列能够快速、便捷地处理结构化数据的数据结构和函数。
高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处功能。
复杂精细的索引功能,以便便捷地完成重塑、切片和切块、聚合及选取数据子集等操作。
5. Matplotlib——绘制数据图表的 Python库
  Python的2D绘图库,非常适合创建出版物上用的图表。
  操作比较容易,只需几行代码即可生成直方图、功率谱图、条形图、错误图和散点图等图形。
   提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图。
   交互式的数据绘图环境,绘制的图表也是交互式的。
6. scikit-learn——数据挖掘和数据分析工具
简单有效,可以供用户在各种环境下重复使用。
封装了一些常用的算法方法。
基本模块主要有数据预处理、模型选择、分类、聚类、数据降维和回归6个,在数据量不大的情况下,scikit-learn可以解决大部分问题。
7. Spyder——交互式 Python语言开发环境
提供高级的代码编辑、交互测试和调试等特性。
包含数值计算环境。
可用于将调试控制台直接集成到图形用户界面的布局中。
模仿MATLAB的“工作空间”,可以很方便地观察和修改数组的值。

3.安装Python的Anaconda发行版

4.掌握Jupyter Notebook常用功能

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值