Python八种数据导入方法，你掌握了吗？赶紧收藏!

python_One1

已于 2023-06-24 17:16:01 修改

阅读量2.5k

点赞数 5

分类专栏： Python 文章标签： python 数据分析开发语言代码规范数据挖掘

于 2023-05-05 09:59:34 首次发布

本文链接：https://blog.csdn.net/python_One1/article/details/130499992

版权

Python 专栏收录该内容

52 篇文章 0 订阅

订阅专栏

文章介绍了Python数据分析中数据导入的各种方法，包括使用Numpy和Pandas库读取文本文件、Flat文件（如CSV和Excel）、SAS、Stata文件，以及Pickled、HDF5、Matlab文件和关系型数据库数据。还提到了Python内置的help函数和Numpy的info方法来获取函数帮助信息。

摘要由CSDN通过智能技术生成

数据分析过程中，需要对获取到的数据进行分析，往往第一步就是导入数据。导入数据有很多方式，不同的数据文件需要用到不同的导入方式，相同的文件也会有几种不同的导入方式。下面总结几种常用的文件导入方法。
大多数情况下，会使用NumPy或Pandas来导入数据，因此在开始之前，先执行：

import numpy as np  
import pandas as pd

两种获取help的方法

很多时候对一些函数方法不是很了解，此时Python提供了一些帮助信息，以快速使用Python对象。

使用Numpy中的info方法

np.info(np.ndarray.dtype)

在这里插入图片描述

Python内置函数

help(pd.read_csv)

在这里插入图片描述

一、文本文件

1、纯文本文件

1.filename = 'demo.txt'  
2.file = open(filename, mode='r') # 打开文件进行读取  
3.text = file.read() # 读取文件的内容  
4.print(file.closed) # 检查文件是否关闭  
5.file.close() # 关闭文件  
6.print(text)

使用上下文管理器 – with

    with open('demo.txt', 'r') as file:  
    print(file.readline()) # 一行一行读取  
    print(file.readline())  
    print(file.readline())

2、表格数据：Flat文件

使用 Numpy 读取 Flat 文件
Numpy 内置函数处理数据的速度是 C 语言级别的。

Flat 文件是一种包含没有相对关系结构的记录的文件。（支持Excel、CSV和Tab分割符文件）

具有一种数据类型的文件

用于分隔值的字符串跳过前两行。在第一列和第三列读取结果数组的类型。

filename = 'mnist.txt'  
data = np.loadtxt(filename,  
                  delimiter=',',  
                  skiprows=2,  
                  usecols=[0,2],  
                  dtype=str)

具有混合数据类型的文件
两个硬的要求：
- 跳过表头信息
- 区分横纵坐标

filename = 'titanic.csv'  
data = np.genfromtxt(filename,  
                     delimiter=',',  
                     names=True,  
                     dtype=None)

在这里插入图片描述
使用 Pandas 读取Flat文件

filename = 'demo.csv'   
data = pd.read_csv(filename,   
                   nrows=5,        # 要读取的文件的行数  
                   header=None,    # 作为列名的行号  
                   sep='\t',       # 分隔符使用  
                   comment='#',    # 分隔注释的字符  
                   na_values=[""]) # 可以识别为NA/NaN的字符串

二、Excel 电子表格

Pandas中的ExcelFile()是pandas中对excel表格文件进行读取相关操作非常方便快捷的类，尤其是在对含有多个sheet的excel文件进行操控时非常方便。

file = 'demo.xlsx'  
data = pd.ExcelFile(file)  
df_sheet2 = data.parse(sheet_name='1960-1966',  
                       skiprows=[0],  
                       names=['Country',  
                              'AAM: War(2002)'])  
df_sheet1 = pd.read_excel(data,  
                          sheet_name=0,  
                          parse_cols=[0],  
                          skiprows=[0],  
                          names=['Country'])

使用sheet_names属性获取要读取工作表的名称。

data.sheet_names

三、SAS 文件

SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统。其保存的文件即sas是统计分析文件。

from sas7bdat import SAS7BDAT  
with SAS7BDAT('demo.sas7bdat') as file:  
  df_sas = file.to_data_frame()

四、Stata 文件

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。其保存的文件后缀名为.dta的Stata文件。

data = pd.read_stata('demo.dta')

五、Pickled 文件

python中几乎所有的数据类型（列表，字典，集合，类等）都可以用pickle来序列化。python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。

import pickle  
with open('pickled_demo.pkl', 'rb') as file:  
   pickled_data = pickle.load(file) # 下载被打开被读取到的数据

与其相对应的操作是写入方法pickle.dump() 。

六、HDF5 文件

HDF5文件是一种常见的跨平台数据储存文件，可以存储不同类型的图像和数码数据，并且可以在不同类型的机器上传输，同时还有统一处理这种文件格式的函数库。

HDF5 文件一般以 .h5 或者 .hdf5 作为后缀名，需要专门的软件才能打开预览文件的内容。

import h5py  
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'  
data = h5py.File(filename, 'r')

七、Matlab 文件

其由matlab将其工作区间里的数据存储的后缀为.mat的文件。

import scipy.io  
filename = 'workspace.mat'  
mat = scipy.io.loadmat(filename)

八、关系型数据库

from sqlalchemy import create_engine  
engine = create_engine('sqlite://Northwind.sqlite')

使用table_names()方法获取一个表名列表

table_names = engine.table_names()

1、直接查询关系型数据库

con = engine.connect()  
rs = con.execute("SELECT * FROM Orders")  
df = pd.DataFrame(rs.fetchall())  
df.columns = rs.keys()  
con.close()

使用上下文管理器 – with

with engine.connect() as con:  
    rs = con.execute("SELECT OrderID FROM Orders")  
    df = pd.DataFrame(rs.fetchmany(size=5))  
    df.columns = rs.keys()

2、使用Pandas查询关系型数据库

df = pd.read_sql_query("SELECT * FROM Orders", engine)

读者福利：知道你对Python感兴趣，便准备了这套python学习资料

对于0基础小白入门：

如果你是零基础小白，想快速入门Python是可以考虑的。
一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、机器学习等习教程。带你从零基础系统性的学好Python！

👉[[[CSDN大礼包：《python兼职资源&全套学习资料》免费分享]]]（安全链接，放心点击）

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉Python必备开发工具👈

👉Python600视频合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

👉实战案例👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

👉Python副业兼职与全职路线👈

在这里插入图片描述

👉面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

上述这份完整版的Python全套学习资料已经上传CSDN官方，朋友们如果需要可以微信扫描下方CSDN官方认证二维码即可领取↓↓↓

python_One1

关注

5
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
Python八种数据导入方法，你掌握了吗？赶紧收藏!

数据分析过程中，需要对获取到的数据进行分析，往往第一步就是导入数据。导入数据有很多方式，不同的数据文件需要用到不同的导入方式，相同的文件也会有几种不同的导入方式。
复制链接

扫一扫

专栏目录