Pandas统计分析基础----导入外部数据

mxsdbh

已于 2024-06-12 21:37:05 修改

阅读量333

点赞数 1

文章标签： pandas

于 2024-06-12 21:20:49 首次发布

本文链接：https://blog.csdn.net/mxsdbh/article/details/139635885

版权

前言

Pandas统计分析基础中，导入外部数据是一个重要的环节。以下是关于Pandas如何导入外部数据的清晰介绍：

一、Pandas库概述

Pandas是一个强大的Python数据分析库，它提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据（包括数值型、文本型、时间序列等）。Pandas建立在NumPy之上，支持类似SQL的数据操作（如增、删、查、改），拥有丰富的数据处理函数，并支持时间序列分析和缺失数据处理等功能。

二、Pandas数据结构

Pandas主要提供两种数据结构：Series和DataFrame。Series是一种一维数组对象，包含了一个值序列，并且包含了数据标签（称为索引）。DataFrame是类似表格的二维数组对象，可以存储多列数据，每列数据可以是不同的数据类型。

三、导入外部数据

Pandas支持多种文件格式的导入，包括Excel文件（.xls或.xlsx）、CSV文件、文本文件（.txt）以及HTML网页等。以下分别介绍这些文件格式的导入方法

导入Excel文件
- 使用read_excel()方法，可以通过指定文件路径、工作表名称、列名行等参数来导入数据。例如：
- ```
代码如下
```
  import pandas as pd
  df = pd.read_excel('example.xlsx', sheet_name='Sheet1', header=0)
- ```
import pandas as pd  
df = pd.read_excel('example.xlsx', sheet_name='Sheet1', header=0)
```
- 其中，sheet_name参数用于指定要读取的工作表名称或索引（默认为0，即第一个工作表），header参数用于指定列名所在的行（默认为0，即第一行）。
导入CSV文件
- 使用read_csv()方法，可以通过指定文件路径、分隔符、列名行等参数来导入数据。例如：
  代码如下
- df = pd.read_csv('example.csv', sep=',', header=0)

import pandas as pd 
df = pd.read_csv('example.csv', sep=',', header=0)
print(df)

实例图片

- 其中，sep参数用于指定字段分隔符（默认为逗号），header参数用于指定列名所在的行（默认为0，即第一行）。
导入文本文件
- 对于结构化的文本文件（如以制表符分隔的.txt文件），可以使用read_csv()方法并指定适当的分隔符来导入数据。例如：
  代码如下
- df = pd.read_csv('example.txt', sep='\t', header=0)
- ```
import pandas as pd
df = pd.read_csv('example.txt', sep='\t', header=0)
print(df)
```
- 这里假设文本文件使用制表符作为字段分隔符。
导入HTML网页
- 使用read_html()方法可以从HTML网页中读取表格数据。该方法返回一个包含多个DataFrame的列表，每个DataFrame对应网页中的一个表格。例如：
  dfs = pd.read_html('example.html')
  df = dfs[0] # 假设我们只对第一个表格感兴趣