基于Pycharm的Excel文件导入以及数据处理

基于Pycharm的Excel文件导入以及数据处理

用了一天的时间进行学习了利用python进行导入excel文件以及处理数据。由于自己是第一次学习,因此特地将所学知识进行总结与分享。

1.包的选取

据我所知,目前常用处理Excel的包主要包括xlrdpandas

xlrdpandas 都是 Python 中用于处理 Excel 文件的库,但它们在功能和使用上有一些重要的异同点。

异同点:

1.1 功能和用途:

  • xlrd 是一个库,主要用于读取 Excel 文件的内容。它提供了一种基本的方式来从 Excel 文件中提取数据,但不支持写入或修改 Excel 文件。
  • pandas 是一个强大的数据处理库,其中包含用于读取和写入 Excel 文件的功能,以及各种数据处理和分析工具。它可以用于读取、处理、分析和写入 Excel 数据,同时还支持多种数据格式和操作。

1.2. 数据结构:

  • xlrd 以一种较为低级的方式返回 Excel 数据,通常是原始的行和列数据。
  • pandas 使用自定义的数据结构,主要是 DataFrame 和 Series,它们更适合数据分析和操作。DataFrame 是一个表格数据结构,可以容纳多种数据类型,而 Series 是一维数组,通常用于表示单列数据。

1.3. 数据处理:

  • xlrd 提供了基本的读取功能,但如果需要进行更复杂的数据操作,需要编写额外的代码。
  • pandas 提供了丰富的数据处理和操作功能,包括数据过滤、转换、聚合、合并、透视等,使得处理和分析数据变得更加简单和高效。

1.4. 性能:

  • xlrd 通常比 pandas 更快,因为它是专门用于读取 Excel 数据的库,没有额外的数据结构和操作的开销。
  • pandas 在处理大型数据集时可能会稍慢,因为它提供了更多的功能和抽象。

选择适合的库:

  • 如果您只需要读取 Excel 文件的内容,并且对数据进行简单的查看或提取操作,xlrd 可能是一个合适的选择,因为它更轻量级且性能较好。
  • 如果您需要进行更复杂的数据处理、分析和转换操作,或者需要将 Excel 数据与其他数据源集成,那么 pandas 是更强大和灵活的工具,它提供了更多的功能来满足您的需求。

通常,根据您的具体需求和项目复杂性,您可以选择使用 xlrdpandas,或两者结合使用,以便充分利用它们的优势。

2.基于xlrd、pandas包进行讲解

现在对两种包处理数据进行分别说明:

2.1 Xlrd包

xlrd包比较老旧,只能处理后缀为.xls的文件,而pandas包则可以处理更多格式,比较新。

import xlrd
book = xlrd.open_workbook('SOWC_2014_Stat_Tables_Table_9.xls')
sheet = book.sheet_by_name('Table 9 ')
data = {}
for i in range(14, sheet.nrows):
# 从第14行开始,因为这是国家数据的起点。 ➋
  row = sheet.row_values(i)
  country = row[1]
  data[country] = {
  'child_labor': {
  'total': [row[4], row[5]],
  'male': [row[6], row[7]],
  'female': [row[8], row[9]],
  },
  'child_marriage': {
  'married_by_15': [row[10], row[11]],
  'married_by_18': [row[12], row[13]],
  }
}
  if country == 'Zimbabwe':
    break #中断程序
import pprint
pprint.pprint(data)

2.2 Pandas包

import pandas as pd
import pprint

# 读取Excel文件
df = pd.read_excel('SOWC_2014_Stat_Tables_Table_9.xls', sheet_name='Table 9 ', skiprows=13)  # skiprows=14
data = {}  # 创建一个空字典
# print(df)
for row in range(200):  # 遍历df的每一行
  row_data = df.iloc[row]
  country = row_data[0]
  # print(country)
  data[country] = {
    'child_labor': {
      'total': [row_data[4], row_data[5]],
      'male': [row_data[6], row_data[7]],
      'female': [row_data[8], row_data[9]],
    },
    'child_marriage': {
      'married_by_15': [row_data[10], row_data[11]],
      'married_by_18': [row_data[12], row_data[13]],
    }
  }
pprint.pprint(data)
# # 创建一个空字典

  • 5
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
### 回答1: 在PyCharm导入Excel文件,可以按照以下步骤进行操作: 1. 在PyCharm中打开要导入Excel文件的Python项目。 2. 在项目中创建一个新的Python文件。 3. 在Python文件导入pandas库,可以使用以下代码: import pandas as pd 4. 使用pandas库中的read_excel()函数读取Excel文件,可以使用以下代码: data = pd.read_excel('文件路径/文件名.xlsx') 其中,'文件路径/文件名.xlsx'为Excel文件的路径和文件名。 5. 读取Excel文件后,可以使用pandas库中的其他函数对数据进行处理和分析。 以上就是在PyCharm导入Excel文件的简单步骤。 ### 回答2: PyCharm 是一款功能强大且易于使用的 Python 集成开发环境,不仅支持编写 Python 代码,同时也支持多种文件导入和导出。其中,Excel 文件作为一种广泛应用的电子表格文件,也可以在 PyCharm 中进行导入和处理。 下面,我们将详细介绍在 PyCharm 中如何导入 Excel 文件。 1. 安装所需的库 在导入 Excel 文件之前,需要确保已安装所需的库。常见的库有 pandas、xlrd等。在 PyCharm 中安装库非常简单,只需要打开终端,输入以下命令即可: ```python !pip install pandas !pip install xlrd ``` 2. 准备 Excel 文件PyCharm导入 Excel 文件之前,需要确保文件存在。如果你已经有一个 Excel 文件,可以直接跳到第三步。如果没有,你需要先创建一个 Excel 文件,并在其中填入数据。 3. 创建 Python 脚本 在 PyCharm 中,新建一个 Python 脚本,可以通过 File -> New Project -> Python File 的方式创建。 4. 导入所需的库 在 Python 脚本中,需要先导入所需的库,包括 pandas、xlrd等。 ```python import pandas as pd import xlrd ``` 5. 读取 Excel 文件 通过 pandas 库中的 read_excel() 函数可以读取 Excel 文件中的数据,并存储到一个 DataFrame 中。 ```python df = pd.read_excel('文件路径') ``` 注:其中,文件路径可以是相对路径或绝对路径,如果与脚本文件在同一目录下,则文件路径可以简写为文件名。 6. 处理 Excel 数据 通过 DataFrame,可以方便地对 Excel 数据进行处理和分析,比如对数据进行筛选、排序、计算等。 最后总结一下在 PyCharm导入 Excel 文件的步骤: 1. 安装所需的库(如 pandas、xlrd); 2. 准备 Excel 文件; 3. 创建 Python 脚本; 4. 导入所需的库; 5. 通过 pandas 库中的 read_excel() 函数读取 Excel 文件中的数据,并存储到一个 DataFrame 中; 6. 处理 Excel 数据。 ### 回答3: 在Pycharm中,可以使用pandas库来处理Excel文件。具体步骤如下: 1. 首先需要在Pycharm中安装pandas库。可以在Pycharm的Terminal(终端)中输入以下命令进行安装: ``` pip install pandas ``` 2. 安装完成后,可以在项目中创建一个新的Python文件。在文件导入pandas库: ``` import pandas as pd ``` 3. 在代码中,使用pandas库中的read_excel函数来读取Excel文件。例如,如果要读取名为“example.xlsx”的Excel文件,可以使用以下代码: ``` data = pd.read_excel("example.xlsx") ``` 这将读取Excel文件中的所有数据,并将其存储在名为“data”的DataFrame对象中。 4. 如果Excel文件存储在不同的文件夹中,则需要指定Excel文件的完整路径。例如,如果Excel文件存储在名为“data”的子文件夹中,则可以使用以下代码: ``` data = pd.read_excel("data/example.xlsx") ``` 5. 读取Excel文件后,可以对数据进行处理和分析,例如使用DataFrame的head()函数来查看前几行数据: ``` print(data.head()) ``` 以上就是在Pycharm中使用pandas库导入Excel文件的完整步骤。需要注意的是,使用pandas库读取Excel文件时,需要安装对应的Excel驱动程序,例如xlrd或openpyxl。如果使用的是较旧的Excel文件(例如.xls格式),则需要安装xlrd驱动程序;如果使用的是较新的Excel文件(例如.xlsx格式),则需要安装openpyxl驱动程序。可以在Pycharm的Terminal(终端)中输入以下命令来安装: ``` pip install xlrd pip install openpyxl ``` 安装完成后,就可以使用pandas库读取Excel文件了。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yanxiaoyu110

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值