数据分析常用库之Pandas之数据存取与数据筛选

1.数据存取

基本概念

1.pandas内置10多种数据源读取函数,常见的CSV,EXCEL
2.pandas读取出来的数据直接是数据框格式
3.可以快速地将数据保存为CSV或者EXCEL格式
4.参数较多,多数时候用默认参数,可以自行设置
5.读取CSV时,常用编码格式为utf-8,gbk,gbk2312等
utf-8,gbk区别

数据读取

1.CSV

import os
import pandas as pd
os.getcwd()
os.chdir(r'C:\Users\wangyaqian\Desktop')

#读取
df = pd.read_csv('004X_RSH_FYJ_1000_CHOUSHUI_01.csv',encoding ='gbk'\
,nrows = 10,header = 0)#默认utf-8,nrows读取前十行,header = 0设定第零行为表头
df.head(5)#查看前5行
df.tail(5)#查看最后5行
df.dtypes#查看每列的数据类型

#保存
#index = False不写入索引
#encoding = 'utf-8'
df.to_csv('希望保存的路径+文件名',index = False,encoding ='utf-8')

2.EXCEL

#读取
pd.read_excel('004X_RSH_FYJ_1000_CHOUSHUI_01.xlsx',encoding ='utf-8'\
,sheet_name = 0, nrows = 10,header = 0)
#表格需要指定工作页,默认索引0,1,2...例如sheet_name = 0;也可以给名称sheet_name = ‘表单名称’

#批量读取同一表格中的多张工作页(前提是多张工作页中内容相同)
for i in sheet_name:
    data = pd.read_excel('004X_RSH_FYJ_1000_CHOUSHUI_01.xlsx',encoding ='utf-8',sheet_name=i)
    data_all = pd.concat([data_all,data], axis = 0, ignore_index = True)

2.数据筛选

import pandas as pd
import numpy as np
import os

os.getcwd()
os.chdir(r'C:\Users\wangyaqian\Desktop\Excel学习包\格式设置')
order = pd.read_excel(r'第2讲单元格格式设置.xlsx',sheet_name =1,  encoding  = 'utf-8')

order.head(5)
#loc标签索引,左闭右闭
a = order[['ERPCO号','所属区域']][:5]#第一个列表为列名,第二个为行索引
b = order.loc[0:2,['ERPCO号','所属区域']]#[0,2]行,'ERPCO号','所属区域'列
c = order.loc[order['所属区域'] == '常熟']#选择'所属区域'为'常熟'的输出

#iloc默认行列索引,左开右闭
d = order.iloc[2:7,2:3]#2-6行,2列
e = order.iloc[2:7,[2,4]]#2-6行,2和4列
print(b,'\n',e)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值