【Python数据分析】pandas 基本操作

0 构建数据集

# 构建数据集
import pandas as pd
import numpy as np

N = 20

dataset = pd.DataFrame({
    'name': ['张三', '夏四', '赵五', '周六'],
    'age': [18, 26, 70, 42],
    'Chinese': [88, 62, 67, 99],
    'Math': [65, 96, 100, 23],
    'Province': ['JS', 'JB', 'JL', 'JX']'Sex': ['M', 'M', 'F', 'F']
    })

# 显示前五行
pd.set_option('display.max_columns', None)
print(dataset.head())

在这里插入图片描述

1 基本属性

# 获取所有元素的值 【返回Numpy数组】
dataset.values  

# 获取数据类型
dataset.dtypes

# 获取行名
dataset.index #【返回Index类型对象】
dataset.index.tolist()  #【返回list对象】

# 获取列名
dataset.columns #【返回Index类型对象】
dataset.columns.tolist()  #【返回list对象】

# 对列进行重命名
dataset.columns = ['姓名', '年龄', '语文', '数学', '籍贯', '性别']

# 查看df前n条数据, 默认5条
df.head(n)

# 查看df后n条数据, 默认5条
df.tail(n)

# 随机查看n条数据
df.sample(n)

# 查看行数和列数
df.shape()

# 查看索引,数据类型和内存信息
df.info()

2 索引

总结:
通常情况下,使用lociloc索引,如果索引结果为一维,则返回Series对象;如果索引结果为二维,则返回Dataframe对象;

## 位置索引

# 获取第一行第四列的元素 【返回python对象】
dataset.iloc[0, 4]

# 获取第二行,第三、第四列的元素
# 注意:同python,最后一个元素不取
dataset.iloc[1, 2:4] #【返回Series对象】

# 获取第三、四行,第一到第四列的元素
dataset.iloc[2:4, 0:4] #【返回DataFrame对象】


## 自定义索引

# 获取Math列 
dataset['Math'] #【返回Series】 或
dataset[['Math']] #【返回DataFrame】 或
dataset.loc[:, 'Math'] #【返回Series】

# 获取Math, Chinese列
dataset[['Math', 'Chinese']] #【返回DataFrame】 或
dataset.loc[:, ['Math', 'Chinese']] #【返回DataFrame】

# 获取序号为1的学生的信息 
# 注意:此处是序号为1,而不是第1个
dataset.loc[1, :] #【返回Series】

# 获取序号为3的学生的性别
dataset.loc[3, 'Sex'] #【返回Python 对象】

3 判断选择

# 判断是否有来自JX省的
# 注意:后面应该加上.values!!!
'JX' in dataset['Province'].values

# 获取性别为M的学生的名字
dataset.loc[dataset['Sex'] == 'M', 'name']

# 获取家乡来自'JB'和'JX'的学生的年龄和性别
dataset.loc[dataset['Province'].isin(['JB', 'JX']), ['age', 'Sex']]

4 数据转换

# 将Series转换为list
dataset['Province'].tolist()

5 参考文献

  1. https://zhuanlan.zhihu.com/p/29665562
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python数据分析中,pandas是一个非常重要的库,它提供了一种灵活、高效、易用的数据结构,可以帮助我们进行数据清洗、数据处理、数据分析等工作。下面是一些pandas实例: 1. 读取数据:pandas可以读取多种格式的数据,如csv、excel、json等。使用read_csv、read_excel、read_json等函数可以读取相应格式的数据文件。 2. 数据清洗:pandas可以帮助我们清洗数据,如去除重复值、处理缺失值、替换异常值等。使用drop_duplicates、dropna、fillna、replace等函数可以实现相应的功能。 3. 数据分组:pandas可以将数据按照某些条件进行分组,然后对每组数据进行统计分析。使用groupby函数可以实现数据分组。 4. 数据聚合:pandas可以对数据进行聚合操作,如求和、求平均值、求最大值、求最小值等。使用sum、mean、max、min等函数可以实现相应的聚合操作。 5. 数据合并:pandas可以将多个数据集合并成一个数据集,可以按照某些条件进行合并。使用merge、concat等函数可以实现数据合并。 6. 数据可视化:pandas可以将数据进行可视化展示,如绘制柱状图、折线图、散点图等。使用plot函数可以实现数据可视化。 以上是一些pandas实例,希望对你有所帮助。 ### 回答2: Python数据分析的关键点之一是数据可以以各种方式被处理和探索。对于数据处理,Pandas是一个非常有用的Python库,它提供了各种功能和方法来处理不同类型的数据。 Pandas 对于大数据集提供了广泛的支持,使其能够在实践中使用。让我们来看一些Python数据分析Pandas实例,了解Pandas的主要功能和应用。 1. 读取数据 在Python中使用Pandas库导入数据集是很简单的。我们可以使用 read_csv() 函数来读取csv文件, read_excel() 函数来读取Excel文件等等。例如,以下代码可以读取CSV格式的数据: import pandas as pd data = pd.read_csv("data.csv") 2. 数据清洗 在数据的每个行或列中,我们有时会遇到缺失值或不必要的数据。在这种情况下,我们可以使用 Pandas 来清洗数据。以下是一些数据清洗的示例: # 删除列 data = data.drop('column_name', axis=1) # 删除行 data = data.drop(data.index[[0,1,2]]) # 替换NaN值 data = data.fillna(method="ffill") # 去除重复值 data = data.drop_duplicates() 3. 数据分组和聚合 Pandas库提供了一些函数来处理分组和聚合数据。Pandas中的groupby()方法可以将数据按照一个或多个列进行分组。以下是一些数据分组和聚合的示例: # 按照列分组 grouped = data.groupby('column_name') # 按照多列分组 grouped = data.groupby(['col1', 'col2']) # 聚合 aggregated = grouped.aggregate(np.sum) 4. 数据可视化 数据可视化是数据分析的最重要环节之一。在Pandas中,提供了许多有用的可视化工具。因此,我们可以在我们的分析中使用这些库来更好地理解数据。以下是一些数据可视化的示例: # 绘制柱状图 data.plot(kind='bar') # 绘制折线图 data.plot(kind='line') # 绘制散点图 data.plot(kind='scatter') 总结 在Python数据分析中,Pandas是一个强大的工具,可以让我们方便、高效地处理、分析和探索数据。通过将数据读入Pandas,清洗数据,聚合数据并将结果可视化,我们可以更好地理解和分析数据集。以上是一些Python数据分析Pandas实例的简单介绍,希望能够对你在数据分析方面有所帮助。 ### 回答3: Python是一种非常流行的编程语言,适用于各种数据分析和科学计算。PandasPython的一个开源库,广泛用于数据分析和数据处理。Pandas提供了许多数据结构和函数,使得数据分析和操作变得更加方便和高效。 Pandas的主要数据结构是Series和DataFrame。Series是一维数据结构,类似于Python的列表,但具有更多的功能,例如索引、行标签和数据类型等。DataFrame是二维数据结构,类似于电子表格,包含多个列和行,每列可以有不同的数据类型。 Pandas提供了多种操作数据的函数和方法,例如处理缺失值、删除重复行、拆分和合并数据等。其中,处理缺失值是数据分析中常见的问题之一,Pandas提供了fillna和dropna两个函数来处理缺失值。fillna函数用于用指定的值或方法填充缺失值,而dropna函数可以删除包含缺失值的行或列。 除了数据预处理,Pandas还支持各种数据分析和绘图功能。例如,可以使用groupby函数按组分析数据,使用pivot_table函数创建数据透视表,使用merge函数合并数据集,还可以使用plot函数绘制各种图表,例如直方图、折线图和散点图等。 总的来说,PandasPython数据分析的重要工具之一,它提供了丰富的功能和易用的API,使得数据分析变得更加高效和方便。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值