利用pandas进行数据分析

最新推荐文章于 2024-07-01 18:10:02 发布

he___H

最新推荐文章于 2024-07-01 18:10:02 发布

阅读量1.5k

点赞数

分类专栏：学习笔记文章标签：数据分析

本文链接：https://blog.csdn.net/he___H/article/details/122478443

版权

在大数据时代，数据分析至关重要。本文通过pandas对牛油果销售数据进行探索，计算相关系数以理解不同地区销售价格差异。发现哈特福德与休斯顿的价格差距并非由有机牛油果比例造成，而是休斯顿消费量较大。尽管平均价格与年份有一定关联，但小包购买率与价格的正相关性较弱。分析过程中运用了数据筛选、描述和分组等pandas功能。

摘要由CSDN通过智能技术生成

1.系统环境：
Windows10: 20H2
MySQL:8.0.23
3.项目背景
（1）
如今的处在一个数据爆炸性增长的大数据时代，自阿里提出“数据赋能”以来，越来越多的电商企业和运营开始关注数据的应用。日常业务产生的海量数据蕴含着巨大的价值，如何在现在竞争激烈的环境中生存下来，其中最重要的一个因素就是数据化运营。
在这样的背景下，我将基于pandas进行数据分析，探索用户行为规律，从而提供有价值的信息。
（2）
也称皮尔森积矩相关系数，一般用于分析，两个连续变量之间的关系，是一种线性相关系数，公式为：

补充：
|r|<= 0.3 不存在线性相关
0.3<=|r|<= 0.5 低度线性关系
0.5<=|r|<= 0.8 显著线性关系
|r| > 0.8 高度当业务指标繁杂，叙述笼统，给报告制作，分析解读带来巨大的成本的时候。根据相关系数删减指标是方法之一，一般来说相关性大于0.8的时候可以选择其一。
在建立多元回归模型前，需要解决把那些数据放入模型作为自变量。最常规的方式就是先计算所有字段与因变量的相关系数，把相关系数较高的放入模型。然后计算自变量间的相关系数。若自变量间的相关系数高，说明存在多重共线性，需要进行删减。
决策层或者管理层经常会根据自己的经验，主观地形成一些逻辑关系。最典型的表述方式就是“我认为这个数据会影响到那个数据”。到底有没有影响?可以通过计算相关系数来判断。相关系数的应用能够让决策者更冷静，更少地盲目拍脑袋。虽然相关系数不能表达因果关系，但有联系的两件事情，一定会在相关系数上有所反映。

4.明确问题
本文将对牛油果售出数据，进行数据分析，尝试分析出有价值的信息。

5.数据来源
数据来自Kaggle社区
网址：https://www.kaggle.com/neuromusic/avocado-prices

6.数据分析
首先导入数据，并查看数据的统计信息：

import pandas as pd
df = pd.read_csv("D:/迅雷下载/archive/avocado.csv")
pd.set_option('display.max_columns', None)
df['AveragePrice'].mean()
df['AveragePrice'].median()
df['AveragePrice'].mode()
df.describe().round(2).T

 然后探究一下各产地总和：

df["region"].value_counts()    #产地总和

 发现数据很均匀，然后探究一下各地的平均价格：

最低0.47元/天解锁文章

he___H

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录