Python数据分析,自动化办公,数据导入你只需要这么做

写在文章的最前面,Python办公自动化有什么用?使用Python代码脚本取代繁复的手工操作,自动化,流程化处理数据。
(文末领福利)
本文借助Python中的Pandas库进行数据导入,关于如何学习Pandas,我们可以在其官方文档进行学习,官网的地址如下。

Pandas官网https://www.pypandas.cn/

在这里插入图片描述

下面一起学习,如何使用Python导入.xlsx文件和.csv文件,导入.xlsx文件的参数如下所示,本文讲解我们日常办公所需要的一些参数。

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,
              usecols=None, squeeze=False,dtype=None,engine=None,
              converters=None,true_values=None,false_values=None,skiprows=None,
              nrows=None,na_values=None,parse_dates=False,date_parser=None, 
              thousands=None, comment=None, skipfooter=0, convert_float=True, **kwds)

导入.xlsx文件

使用read_excel命令导入数据,写入路径即可。

#导入数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx")
df.head()

在这里插入图片描述

nrows

导入前4行数据。

#导入前4行数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",nrows=4)
df

在这里插入图片描述

sheet_name

指定导入的sheet表,在首映地点中选择中国首映的sheet表。

#导入具体的sheet数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",sheet_name = "中国首映")
df.head()

在这里插入图片描述

header

指定第一行是否为列名,header=0,表示数据第一行为列名,header=None,表明数据没有列名。

#header为0时,第一行作为列索引
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",header = 0)
df.head()
在这里插入图片描述

index_col
指定列作为行索引。

#index_col为1时,第二列作为行索引
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",index_col = 1)
df.head()

在这里插入图片描述

usecols

可以指定读取的列名。

#选择第二列,第六列数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =[1,5])
df.head()

这里使用一个小技巧,将带空格的字符串变为列表形式。

'名字 上映时间'.split()
['名字', '上映时间']
#选择特定的列
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =['名字', '上映时间'])
df.head()

在这里插入图片描述

这里发现指定具体的列名称时无法选择列,我们使用切片索引选择特定的列。

#选择特定的列
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx")
df=df.loc[:,['名字', '上映时间']]
df.head()

在这里插入图片描述

skiprows

跳过多少行再读取数据。

#跳过第二行和第四行数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",header=0,skiprows=[1,3])
df.head()

在这里插入图片描述

names

对选取的列重命名。

#对列命名
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =[1,5],names=["电影名称","上映日期"])
df.head()

在这里插入图片描述

数据类型转化

types

查看字段的数据类型。

df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx")
df.dtypes

在这里插入图片描述

dtype

转化数据类型。

#转化数据类型
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",dtype={'投票人数':'int','评分':'int'})
df.dtypes

在这里插入图片描述
object数据类型转化。

#查看数据类型
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =[5])
df.dtypes

在这里插入图片描述

指定解析成日期格式的列。

#转化日期类型
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =[5],parse_dates=[0])
df.dtypes

在这里插入图片描述

创建一个时间表。

import pandas as pd
from datetime import datetime

a={'日期':[datetime(2021,3,15),datetime(2021,3,15)],'销量':[10,20]}
b={'日期':[datetime(2021,3,16),datetime(2021,3,16)],'销量':[30,40]}

df1=pd.DataFrame(a)
df2=pd.DataFrame(b)

使用datetime_format进行日期格式转化。

with pd.ExcelWriter(r'C:\Users\尚天强\Desktop\learn.xlsx',datetime_format='YYYY-MM-DD') as writer :
    df1.to_excel(writer,sheet_name='15日',index=False)
    df2.to_excel(writer,sheet_name='16日',index=False)

在这里插入图片描述

数据导出

使用to_excel,写入导出的路径,进行数据导出,index=False消行索引。

import pandas as pd
a={'销量':[10,20],'售价':[100,200]}
df=pd.DataFrame(a)

df.to_excel(r'C:\Users\尚天强\Desktop\learn.xlsx',index=False) #取消行索引

在这里插入图片描述

加入行索引,并使用index.name对其命名。

import pandas as pd

a={'销量':[10,20],'售价':[100,200]}
df=pd.DataFrame(a,index=['A','B']) #加入一个行索引
df.index.name='货号'

df.to_excel(r'C:\Users\尚天强\Desktop\learn.xlsx')

在这里插入图片描述

float_format

设置浮点型数据的小数位。

na_rep

空值进行填充。

import pandas as pd

a={'销量':[10,20.43],'售价':[100.25,None]}
df=pd.DataFrame(a,index=['A','B']) #加入一个行索引
df.index.name='货号'

df.to_excel(r'C:\Users\尚天强\Desktop\learn.xlsx',sheet_name='第一张表',float_format='%.2f',na_rep='空值')

在这里插入图片描述

导入.csv文件

我们常使用的CSV文件有CSV UTF-8(逗号分隔)和CSV(逗号分隔)这两种。
在这里插入图片描述

编码方式设置

如果导出的文件为gbk编码方式,导入数据的时候用gbk的编码方式。

encoding

指定数据读入的编码方式。

# 如果导出的文件为gbk编码方式,导入数据的时候用gbk 
df = pd.read_csv(r"C:\Users\尚天强\Desktop\score.csv",encoding="gbk",nrows =2)#导入前两行 
df

中文路径导入数据

当文件路径或文件名为中文时,如果是CSV UTF-8(逗号分隔)的格式文件,需要把编码格式更改为utf-8-sig,如果是CSV(逗号分隔)的格式文件,需要把编码格式更改为gbk

'''
当文件路径或文件名为中文时,如果是CSV UTF-8(逗号分隔)的格式文件,需要把编码格式更改为utf-8-sig
如果是CSV(逗号分隔)的格式文件,需要把编码格式更改为gbk 
'''
df = pd.read_csv(r'C:\Users\尚天强\Desktop\cars_scoreCSV.csv',engine="python",encoding="gbk") 
df.head()
'''
当文件路径或文件名为中文时,如果是CSV UTF-8(逗号分隔)的格式文件,需要把编码格式更改为utf-8-sig,
如果是CSV(逗号分隔)的格式文件,需要把编码格式更改为gbk 
'''
df = pd.read_csv(r'C:\Users\尚天强\Desktop\cars_scoreUTF-8.csv',engine="python",encoding="utf-8-sig") 
df.head()

在这里插入图片描述
-END-


学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习、自动化测试带你从零基础系统性的学好Python!

👉[CSDN大礼包:《python安装工具&全套学习资料》免费分享]安全链接,放心点击

👉Python学习大礼包👈

在这里插入图片描述

👉Python学习路线汇总👈

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取哈)
在这里插入图片描述

👉Python必备开发工具👈

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python实战案例👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python书籍和视频合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

👉Python面试刷题👈

👉Python副业兼职路线👈

在这里插入图片描述
在这里插入图片描述
这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以点击链接免费领取或者保存图片到wx扫描二v码免费领取保证100%免费

👉[CSDN大礼包:《python安装工具&全套学习资料》免费分享]安全链接,放心点击

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值