数据分析 | pandas

主要数据结构:

Series:

Series 是一种类似于 Numpy 中一维数组的对象,它由一组任意类型的数据以及一组与之相关的数据标签(即索引)组成。

import pandas as pd

print(pd.Series([2, 4, 6, 8]))
print(pd.Series([2, 4, 6, 8], index=['a', 'b', 'c', 'd']))
# 输出
# 0    2
# 1    4
# 2    6
# 3    8
# dtype: int64
# a    2
# b    4
# c    6
# d    8
# dtype: int64

还可以直接使用字典同时创建带有自定义数据标签的数据,pandas 会自动把字典的键作为数据标签,字典的值作为相对应的数据。

访问 Series 里的数据的方式,和 Python 里访问列表和字典元素的方式类似,也是使用中括号加数据标签的方式来获取里面的数据。

import pandas as pd

s1 = pd.Series([2, 4, 6, 8])
s2 = pd.Series({'a': 2, 'b': 4, 'c': 6, 'd': 8})

print(s1[0])
#输出:2
print(s2['b'])
#输出:4

数学中的四则运算在 pandas 中都有一一对应的方法,它们的用法都是类似的:

import pandas as pd

s1 = pd.Series({'辣条': 14, '面包': 7, '可乐': 8, '烤肠': 10})
s2 = pd.Series({'辣条': 20, '面包': 3, '雪碧': 13, '泡面': 6})

print(s2.sub(s1,fill_value=0))# fill_value 为数据缺失时的默认值

#输出:
#可乐    -8.0
#泡面     6.0
#烤肠   -10.0
#辣条     6.0
#雪碧    13.0
#面包    -4.0
#dtype: float64

DataFrame:

 DataFrame 是二维数据

import pandas as pd
#调用 pd.set_option() 使表格对齐显示
pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)

df = pd.DataFrame({'辣条': [14, 20], '面包': [7, 3], '可乐': [8, 13], '烤肠': [10, 6]})
print(df)

#输出:
#    辣条   面包  可乐   烤肠
#0    14     7     8    10
#1    20     3    13     6

列的查改增删:

查看列:

import pandas as pd

df = pd.DataFrame({'辣条': [14, 20], '面包': [7, 3], '可乐': [8, 13], '烤肠': [10, 6]})
print(df['可乐'])
#输出:
#0     8
#1    13
#Name: 可乐, dtype: int64
print(df[['可乐', '辣条']])
#输出:
#    可乐   辣条
#0     8    14
#1    13    20

修改列:

df['可乐'] = [18, 23]
print(df)
#输出:
#    辣条   面包   可乐  烤肠
#0    14     7    18    10
#1    20     3    23     6

新增列:

df['糖果'] = [3, 5]
print(df)
#输出:
#    辣条   面包  可乐   烤肠   糖果
#0    14     7     8    10     3
#1    20     3    13     6     5

删除列:

df.drop('面包', axis=1, inplace=True)
print(df)
# 或者 print(df.drop('面包', axis=1))
#输出:
#    辣条   可乐  烤肠
#0    14     18    10
#1    20     23     6

读取表格文件进行分析:

数据筛选:

给数据打标签:

行的查改增删:

查看行:

import pandas as pd

df = pd.DataFrame({'辣条': [14, 20], '面包': [7, 3], '可乐': [8, 13], '烤肠': [10, 6]})
print(df.loc[0])
#输出:
#辣条    14
#面包     7
#可乐     8
#烤肠    10
#Name: 0, dtype: int64

# 行分片
print(df.loc[0:1, '辣条'])

# 列分片
print(df.loc[0, '辣条':'可乐'])

# 同时分片
print(df.loc[0:1, '辣条':'可乐'])

#输出:
#0    14
#1    20
#Name: 辣条, dtype: int64

#辣条    14
#面包     7
#可乐     8
#Name: 0, dtype: int64

#    辣条   面包  可乐
#0    14     7     8
#1    20     3    13

除了比较常用的 loc 之外,还能使用 iloc。用法和 loc 一样,区别在于 loc 使用的参数是索引,而 iloc 的参数是位置,即第几行。

import pandas as pd

data = {
  '辣条': [14, 20, 12, 15, 17],
  '面包': [7, 3, 8, 3, 9],
  '可乐': [8, 13, 23, 12, 19],
  '烤肠': [10, 6, 21, 24, 18]
}
df = pd.DataFrame(data, index=['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05'])
print(df.iloc[:3])  # :3 表示 0、1、2 前三个

#输出:
#             辣条   面包  可乐   烤肠
#2020-01-01    14     7     8    10
#2020-01-02    20     3    13     6
#2020-01-03    12     8    23    21

修改行:

df.loc[0] = 1  # 第一行都改成 1
print(df)

#输出:
#    辣条   面包  可乐   烤肠
#0     1     1     1     1
#1    20     3    13     6

新增行:

# 添加第三行,全为 1
df.loc[2] = 1
# 添加第四行,分别为 1 2 3 4
df.loc[3] = [1, 2, 3, 4]
print(df)

#输出:
#    辣条   面包  可乐   烤肠
#0    14     7     8    10
#1    20     3    13     6
#2     1     1     1     1
#3     1     2     3     4

删除行:

df.drop(0, inplace=True)  # 删除第一行
print(df)
# 或者 print(df.drop(0))

数据清洗:

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
NumPy和Pandas是Python中两个用于数据分析的重要库。NumPy是一个数学库,提供了多维数组对象和用于处理这些数组的函数。它是大多数数据科学工具和库的基础。Pandas是一个数据处理和分析库,它建立在NumPy之上,提供了用于处理和操作结构化数据的高级数据结构和函数。 NumPy的主要特点是它的多维数组对象(也称为ndarray),它可以存储相同类型的元素。这使得NumPy非常适合进行数学和统计计算,以及处理大规模数据集。NumPy还提供了许多用于数组操作的函数,包括索引、切片、聚合操作、线性代数、傅里叶变换等。在数据分析中,NumPy常用于数据清洗、转换和计算。 Pandas是基于NumPy构建的,它提供了两个主要的数据结构:Series和DataFrame。Series是一维标记数组,类似于带有标签的NumPy数组。DataFrame是一个二维表格,类似于Excel或SQL表。Pandas提供了丰富的功能,包括数据的读取和写入、数据清洗、数据过滤、数据聚合、数据可视化等。 Pandas的优势在于它的表格结构和灵活的数据处理能力。它可以处理不同类型的数据(整数、浮点数、字符串等),并且可以进行缺失值处理和重复值处理。此外,Pandas还提供了强大的数据操作功能,如合并、拼接、分组和透视等。 综上所述,NumPy和Pandas是两个在数据分析中广泛使用的Python库,它们提供了高效的数据处理和分析工具,能够满足不同场景下的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值