Python数据分析-利用pandas分析excel文件（实训）

最新推荐文章于 2023-12-19 10:00:00 发布

Luo86173

最新推荐文章于 2023-12-19 10:00:00 发布

阅读量3.6k

点赞数 6

分类专栏： Educoder Python 文章标签： python 数据分析

本文链接：https://blog.csdn.net/EOF_230321/article/details/121483171

版权

Python 同时被 2 个专栏收录

18 篇文章 14 订阅

订阅专栏

Educoder

17 篇文章 17 订阅

订阅专栏

第1关：数据分析基础

任务描述

本关任务：从文件中读取数据，完成相关数据分析基本操作。

相关知识

为了完成本关任务，你需要掌握：1.文件读写，2.数据索引，3.添加新列。

文件读写

1.读取文件利用pandas读取文件主要用到的函数是read_xx()，读取后数据结构为dataframe。

1.1 excel文件 pd.read_excel()可以用来读取excel文件，主要涉及到的参数有： (1)sheet_name: excel文件中的表名 (2)index_col: 使用哪一列作为行索引，默认从0开始 (4)usecols: 读取表格中哪几列，必须是位置索引 (5)header: 哪一行设置为列索引，默认是第一行，即header = 0 (6)date_parser：解析日期的函数 (7)parse_dates：尝试将数据解析为日期，默认为False。如果为True，则尝试解析所有列。此外，还可以指定需要解析的一组列号或者列名 (8)names: 列索引 (9)engine: 默认是C，如文件路径存在中文时，engine= "python" (10)encoding: 默认是utf-8，还可以是gbk (11)skiprows: 跳过前几行读取文件，默认从0开始 (12)nrows: 读取多少行数据 (13) converters: 列名跟函数之间的映射关系组成的字典

以数据文件example.xls的读取为例:

import pandas as pd
df = pd.read_excel('example.xls',nrows = 5)
print(df)
用户id 性别年龄消费金额贷款与否
0 1 男 60 311.0 0
1 2 NaN 25 220.0 1
2 3 男 47 246.0 0
3 4 女 52 NaN 0
4 5 女 21 916.0 0

默认将第一行作为表头读出。如果数据表格无表头，设置参数header=None：

df = pd.read_excel('example.xls',header=None,nrows = 5)

1.2 csv文件 csv文件是以逗号为分隔符的文件，读取参数与excel基本类似。但是读取csv文件通常需要指定解码方式，最常用的是utf-8，如果使用utf-8报错，尝试设为gbk：

df = pd.read_csv('example.csv',encoding = 'gbk')
print(df)
用户id 性别年龄消费金额贷款与否
0 1 男 60 311.0 0
1 2 NaN 25 220.0 1
2 3 男 47 246.0 0
3 4 女 52 NaN 0
4 5 女 21 916.0 0

1.3 txt文件 txt文件是以指制表符\t为分隔符的文件，可用read_csv来读取，参数与excel、csv基本类似，不同的地方在于必须要指定sep。

df = pd.read_table('example.txt',encoding = 'gbk',sep = ',',nrows= 5)
print(df)
用户id 性别年龄消费金额贷款与否
0 1 男 60 311.0 0
1 2 NaN 25 220.0 1
2 3 男 47 246.0 0
3 4 女 52 NaN 0
4 5 女 21 916.0 0

写入文件

2.1写入文件 excel，csv，txt写入文件的方式基本类似，以pandas的to_xx()方式写入；因为三者类似，这里只用excel格式来示例。 (1)index：是否保留行索引 (2)columns: 通过列索引指定所需列 (3)sheet_name: 表名 (4)encoding：编码格式，utf-8或者gbk (5)na_rep：缺失值填充 (6)inf_rep：无穷值填充 (7)index_label: 行索引标签 (8)header: 默认为True，False没有列索引，如需更改列名，则header = ["列1","列2","列3"]

df = pd.read_excel('example.xls',nrows = 5)
df.to_excel('example_new.xlsx',index = False,encoding = "utf-8")

写入csv文件和文本文件时用to_csv()。可以通过设置sep参数来指定间隔符，默认为','。

数据索引

1.按列索引

df['性别'] or df.性别 #访问某一列数据
df[['性别','消费金额']] #访问不连续的多列数据
df['性别':'消费金额'] #访问连续的多列数据

2.按行索引

df.iloc[0:3]

3.按行、列索引

df.loc['性别':'消费金额',1:3]
df.iloc[[1,3],[1,3]]

4.布尔索引

df[df['消费金额']>=300] #消费金额>300的行

添加新列

df['职业']='教师' #增加职业列，将所有人的职业设为教师
df[df['性别']=='男']['职业']='医生' #将男性的职业改为医生

编程要求

根据提示，在右侧编辑器补充代码，完成指定操作。

# -*- coding: utf-8 -*-
"""
Created on Tue Feb  9 20:49:01 2021

@author: Administrator
"""

import pandas as pd

# 1.将scores.xls文件读到名为df的dataframe中
############begin############
df=pd.read_excel('scores.xls')
#############end#############




#2.添加平均分列：考勤、实验操作、实验报告的平均
############begin############

col_name=df.columns.tolist()
col_name.append('平均分')
df=df.reindex(columns=col_name)              # 对原行/列索引重新构建索引值

for j in range(0,(len(df))):
   a,b,c=df.iloc[j,6],df.iloc[j,7],df.iloc[j,8]
   s=a+b+c
   df.iloc[j,9]=s/3

#############end#############

#3.输出前3行学生的平均分列表，控制小数点后两位
############begin############
li=[]
for k in range(3):
   e=round(df.iloc[k,9],2)
   li.append(e)
print(li)
#############end#############

#4.输出学生人数和班级数
############begin############
print(len(df))
d={}
list_class=df['班级名称']
for i in list_class:
   if i in d:
      pass
   else:
      d[i]=1
print(len(d))
#############end#############

#5.分别输出实验报告中值、最高分、最低分
############begin############
sco_LR=[]
for m in range(len(df)):
   g=(df.iloc[m,8])
   g=float(g)
   sco_LR.append(g)
sco_LR.sort()
mid=(len(df)/2)

if mid%2==0:
   mid=int(mid)
   print((sco_LR[mid]+sco_LR[mid+1])/2)
else:
   print(sco_LR[int(mid+0.5)])

print('%.1f'%(sco_LR[-1]))
print('%.1f'%(sco_LR[0]))
#############end#############

#6.输出实验报告分最低的3位同学的姓名列表
############begin############
h=0
while True:
   index=-1
   tmp_name=''
   p=0x55AA
   for n in range(len(df)):
      o=float(df.iloc[n,8])
      
      if o<p:
         tmp_name=df.iloc[n,1]
         p=o
         index=n
      else:
         pass
   if h==0:
      print('[\'',end='')
   print(tmp_name,end='')
   if h!=2:
      h+=1
      print('\' \'',end='')
   else:
      print('\']')
      break
   df.iloc[index,8]=0x5BFE
#############end#############

Luo86173

关注

6
点赞
踩
19

收藏

觉得还不错? 一键收藏
3
评论
Python数据分析-利用pandas分析excel文件（实训）

第1关：数据分析基础任务描述本关任务：从文件中读取数据，完成相关数据分析基本操作。相关知识为了完成本关任务，你需要掌握：1.文件读写，2.数据索引，3.添加新列。文件读写1.读取文件利用pandas读取文件主要用到的函数是read_xx()，读取后数据结构为dataframe。1.1 excel文件 pd.read_excel()可以用来读取excel文件，主要涉及到的参数有： (1)sheet_name: excel文件中的表名 (2)index_col: 使用哪一列作为行索
复制链接

扫一扫