对于df的初步认识

In [9]: df
Out[9]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

 

Display the index, columns, and the underlying NumPy data:

In [16]: df.index
Out[16]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [17]: df.columns
Out[17]: Index(['A', 'B', 'C', 'D'], dtype='object')

In [18]: df.values
Out[18]: 
array([[ 0.4691, -0.2829, -1.5091, -1.1356],
       [ 1.2121, -0.1732,  0.1192, -1.0442],
       [-0.8618, -2.1046, -0.4949,  1.0718],
       [ 0.7216, -0.7068, -1.0396,  0.2719],
       [-0.425 ,  0.567 ,  0.2762, -1.0874],
       [-0.6737,  0.1136, -1.4784,  0.525 ]])

 

从这个例子可以看出行标(index)、列标(columns)的类型是Index,其它数据(df.values)的类型是array数组。

http://pandas.pydata.org/pandas-docs/stable/10min.html#viewing-data

 

### 使用 Python Pandas 进行 Superstore 数据集的数据分析 #### 导入必要的库 为了有效地进行数据分析,需要导入一些常用的Python库来辅助操作和可视化数据。 ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.rcParams['font.sans-serif'] = ['SimHei'] warnings.filterwarnings('ignore') ``` 这些库提供了强大的功能用于数值计算、数据处理以及图形展示[^1]。 #### 加载并查看数据 通过`pd.read_csv()`函数读取CSV文件中的Superstore数据集,并指定合适的字符编码以防止乱码问题发生。接着可以调用`.head()`方法快速浏览前几条记录;利用`.shape`属性了解整个表格的规模;而`.describe()`则能给出各列统计数据摘要信息。 ```python df = pd.read_csv('superstore_dataset2011-2015.csv', encoding='ISO-8859-1') print(df.head()) print("数据大小:", df.shape) print(df.describe()) ``` 此部分有助于初步认识所要分析的对象及其基本统计特性。 #### 清洗与转换数据 针对可能存在质量问题的数据项采取措施加以改进。具体做法包括移除存在缺失值或完全相同的样本实例,同时对于某些特定变量实施合理的数学变换以便后续建模工作更加顺利开展。 ```python df_cleaned = df.dropna().drop_duplicates() df_cleaned['Sales'] = np.log1p(df_cleaned['Sales']) ``` 这里执行了两项重要任务:一是清理不完整的观测值和冗余副本;二是采用自然对数加一的方式调整销售金额分布形态,使其更接近正态分布从而有利于回归类模型的应用[^2]。 #### 探索性数据分析 (EDA) 基于上述准备好的干净版本数据集,可以从多个角度出发深入探究各个业务指标之间的关系模式: - **时间序列趋势**:绘制年度/季度级别的收入变化曲线图; - **类别对比分析**:比较不同产品线或者客户群体带来的收益贡献度差异; - **关联规则挖掘**:识别哪些商品经常被一起购买形成捆绑效应。 每一步骤都将借助于Pandas所提供的强大API完成相应运算逻辑的设计实现,并配合Matplotlib/Seaborn绘制成直观易懂的结果图表供决策者参考解读[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值