利用pandas进行数据分析

1.系统环境:
Windows10: 20H2
MySQL:8.0.23
3.项目背景
(1)
如今的处在一个数据爆炸性增长的大数据时代,自阿里提出“数据赋能”以来,越来越多的电商企业和运营开始关注数据的应用。日常业务产生的海量数据蕴含着巨大的价值,如何在现在竞争激烈的环境中生存下来,其中最重要的一个因素就是数据化运营。
在这样的背景下,我将基于pandas进行数据分析,探索用户行为规律,从而提供有价值的信息。
(2)
也称皮尔森积矩相关系数,一般用于分析,两个连续变量之间的关系,是一种线性相关系数,公式为:

补充:
|r|<= 0.3 不存在线性相关
0.3<=|r|<= 0.5 低度线性关系
0.5<=|r|<= 0.8 显著线性关系
|r| > 0.8 高度当业务指标繁杂,叙述笼统,给报告制作,分析解读带来巨大的成本的时候。根据相关系数删减指标是方法之一,一般来说相关性大于0.8的时候可以选择其一。
在建立多元回归模型前,需要解决把那些数据放入模型作为自变量。最常规的方式就是先计算所有字段与因变量的相关系数,把相关系数较高的放入模型。然后计算自变量间的相关系数。若自变量间的相关系数高,说明存在多重共线性,需要进行删减。
决策层或者管理层经常会根据自己的经验,主观地形成一些逻辑关系。最典型的表述方式就是“我认为这个数据会影响到那个数据”。到底有没有影响?可以通过计算相关系数来判断。相关系数的应用能够让决策者更冷静,更少地盲目拍脑袋。虽然相关系数不能表达因果关系,但有联系的两件事情,一定会在相关系数上有所反映。

3.用户行为日志avocado.csv,日志中的字段定义如下:
Date | 日期
AveragePrice | 平均价格
Total Volume | 总交易量
4046 | 售出 PLU 4046 的鳄梨总数
4225 | 售出 PLU 4225 的鳄梨总数
4770 | 售出 PLU 4770 的鳄梨总数
Total Bags |总袋数
Small Bags | 小包
Large Bags | 大包
XLarge Bags | 特大包
Type | 是否有机
Year | 哪一年
Region | 地区

4.明确问题
本文将对牛油果售出数据,进行数据分析,尝试分析出有价值的信息。

5.数据来源
数据来自Kaggle社区
网址:https://www.kaggle.com/neuromusic/avocado-prices

6.数据分析
首先导入数据,并查看数据的统计信息:

import pandas as pd
df = pd.read_csv("D:/迅雷下载/archive/avocado.csv")
pd.set_option('display.max_columns', None)
df['AveragePrice'].mean()
df['AveragePrice'].median()
df['AveragePrice'].mode()
df.describe().round(2).T
 然后探究一下各产地总和:
df["region"].value_counts()    #产地总和
 发现数据很均匀,然后探究一下各地的平均价格:

                
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值