1-1数据读取

最新推荐文章于 2022-12-23 23:01:41 发布

qianxingyuyuyu

最新推荐文章于 2022-12-23 23:01:41 发布

阅读量476

点赞数 2

分类专栏： pandas 文章标签： python pandas numpy

本文链接：https://blog.csdn.net/qianxingyuyuyu/article/details/126064209

版权

pandas 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、使用 pandas 读取 CSV 与读取 xlsx 格式的 Excel 文件方法大致相同

data = pd.read_csv("×××××.csv")
data = pd.read_excel("×××××.xlsx")

2、读取指定位置下的文件

data=pd.read_csv("../××/××.csv") # ../表示返回至当前位置的上一级文件夹

3、读取文件前x行

data = pd.read_csv("××××.csv",nrows = ×)

4、读取文件跳过x-xx行

data = pd.read_csv("××××.csv",skiprows = [i for i in range(x,xx)])

5、读取文件偶数/奇数行

data = pd.read_csv('××××.csv', skiprows=lambda x: (x != 0) and not x % 2)

data = pd.read_csv('××××.csv', skiprows=lambda x: x % 2)

6、读取文件根据指定列号

data = pd.read_csv("××××.csv",usecols = [x1,x2,x3])

7、读取文件根据指定列名

data = pd.read_csv("××××.csv",usecols = ['××××','××××','××××'])

8、读取文件根据指定列名（指定的列名可能不在文件中）

usecols = ['××××', '××××', '××××', '××××', '××××']

data = pd.read_csv('××××.csv', usecols=lambda c: c in set(usecols))

9、读取文件并设置指定列为索引

data = pd.read_csv('××××.csv',index_col=['××××'])

10、读取文件指定列并重新设置标题

data = pd.read_csv('××××.csv', usecols=[x1,x2,x3],header = 0,names=['××××','××××','××××'])

11、读取文件时不标记缺失值为NA

data = pd.read_csv('xxxx.csv', keep_default_na=False)

12、读取文件并指定缺失值标记符号

data = pd.read_csv('xxxx.csv',na_values=['x'])

13、读取文件时不处理缺失值

data = pd.read_csv("xxxx.csv",na_filter=False)

14、读取文件并将指定列设置为指定格式

data = pd.read_csv("xxxx.csv", dtype={'xxxx': xx,'xxxx':xx}) 
data = pd.read_csv("xxxx.csv",parse_dates=['xxxx']) #转换为日期格式

15、每次读取文件指定行数，返回一个可迭代对象

data = pd.read_csv("xxxx.csv", chunksize= x)

16、读取txt文件

data = pd.read_table("xxxx.txt")

#含中文：
data = pd.read_table("xxxx.txt",encoding='gb18030')
data = pd.read_csv("xxxx.txt",encoding='gb18030',sep = '\t')

17、读取JSON文件

data = pd.read_json("xxxx.json")

18、读取HDF5文件

data = pd.read_hdf("xxxx.h5", "table")

19、从剪贴板读取数据

data = pd.read_clipboard()

20、从SQL读取指定表指定属性数据

pd.read_sql('SELECT xx, xx FROM xx', conn)

21、从指定网页读取数据

data = pd.read_html("xxxx")[0]

22、批量读取指定文件夹下的所有Excel文件

import os
path = 'xxxx/'
filesnames = os.listdir(path)
filesnames = [f for f in filesnames if f.lower().endswith(".xlsx")]
df_list = []
for filename in filesnames:
    df_list.append(pd.read_excel(path + filename))
df = pd.concat(df_list)