数据分析常用库之Pandas之数据存取与数据筛选

最新推荐文章于 2023-11-27 17:01:31 发布

向日葵不嗑瓜子

最新推荐文章于 2023-11-27 17:01:31 发布

阅读量243

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_36640156/article/details/105726669

版权

python 专栏收录该内容

18 篇文章 1 订阅

订阅专栏

1.数据存取

基本概念

1.pandas内置10多种数据源读取函数，常见的CSV,EXCEL
2.pandas读取出来的数据直接是数据框格式
3.可以快速地将数据保存为CSV或者EXCEL格式
4.参数较多，多数时候用默认参数，可以自行设置
5.读取CSV时，常用编码格式为utf-8，gbk，gbk2312等
utf-8，gbk区别

数据读取

1.CSV

import os
import pandas as pd
os.getcwd()
os.chdir(r'C:\Users\wangyaqian\Desktop')

#读取
df = pd.read_csv('004X_RSH_FYJ_1000_CHOUSHUI_01.csv',encoding ='gbk'\
,nrows = 10,header = 0)#默认utf-8,nrows读取前十行，header = 0设定第零行为表头
df.head(5)#查看前5行
df.tail(5)#查看最后5行
df.dtypes#查看每列的数据类型

#保存
#index = False不写入索引
#encoding = 'utf-8'
df.to_csv('希望保存的路径+文件名',index = False,encoding ='utf-8')

2.EXCEL

#读取
pd.read_excel('004X_RSH_FYJ_1000_CHOUSHUI_01.xlsx',encoding ='utf-8'\
,sheet_name = 0, nrows = 10,header = 0)
#表格需要指定工作页，默认索引0,1,2...例如sheet_name = 0；也可以给名称sheet_name = ‘表单名称’

#批量读取同一表格中的多张工作页（前提是多张工作页中内容相同）
for i in sheet_name:
    data = pd.read_excel('004X_RSH_FYJ_1000_CHOUSHUI_01.xlsx',encoding ='utf-8',sheet_name=i)
    data_all = pd.concat([data_all,data], axis = 0, ignore_index = True)

2.数据筛选

import pandas as pd
import numpy as np
import os

os.getcwd()
os.chdir(r'C:\Users\wangyaqian\Desktop\Excel学习包\格式设置')
order = pd.read_excel(r'第2讲单元格格式设置.xlsx',sheet_name =1,  encoding  = 'utf-8')

order.head(5)
#loc标签索引，左闭右闭
a = order[['ERPCO号','所属区域']][:5]#第一个列表为列名，第二个为行索引
b = order.loc[0:2,['ERPCO号','所属区域']]#[0,2]行，'ERPCO号','所属区域'列
c = order.loc[order['所属区域'] == '常熟']#选择'所属区域'为'常熟'的输出

#iloc默认行列索引，左开右闭
d = order.iloc[2:7,2:3]#2-6行，2列
e = order.iloc[2:7,[2,4]]#2-6行，2和4列
print(b,'\n',e)

向日葵不嗑瓜子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析常用库之Pandas之数据存取与数据筛选

基本概念1.pandas内置10多种数据源读取函数，常见的CSV,EXCEL2.pandas读取出来的数据直接是数据框格式3.可以快速地将数据保存为CSV或者EXCEL格式4.参数较多，多数时候用默认参数，可以自行设置5.读取CSV时，常用编码格式为utf-8，gbk，gbk2312等utf-8，gbk区别数据读取1.CSVimport osimport pandas as p...
复制链接

扫一扫

专栏目录