Python读取Excel和csv文件

1 read_excel()

python读取Excel文件,需要用到pandas里的read_excel()方法;

1.1 安装xlrd/xlwt库

python操作excel要用到xlrd和xlwt这两个库,首次在pycharm上使用read_excel()方法,需要安装这两个库,否则会报如下的错误:

ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.

pycharm里安装xlrd、xlwt库的方法:File-Settings-Project-Python Interpreter,点击右侧的小加号(Install),会弹出Available Packages页面,搜索需要安装的包,点击Install Package,等待安装即可,安装成功后,回到Python Interpreter页面,会显示Package ‘XXX’ installed successfully.

1.2 文件路径的写法

电脑中文件路径使用的是\,如D:\Py_DataAnalysis,反斜杠\在python中表示转义字符。e.g. \n表示换行符,\r表示回车符,\t表示制表符。

为了避免路径中的\被转义,有以下三种方式:

  • 在路径前面加r
  • 在路径的\再加上一个\
  • 把路径的\改成/
pd.read_excel(r'D:\python\test.xlsx')
pd.read_excel('D:\\python\\test.xlsx')
pd.read_excel('D:/python/test.xlsx')

1.3 读取文件夹里的所有文件

在工作中,经常会遇到汇总许多文件的操作,如何利用python实现自动读取所有文件?

这里需要用到os包

import os
path = 'D:\\python\\' # 要操作的文件夹名称
files = os.listdir(path)  # 得到文件夹下面的所有文件名称
# 通过循环实现便利,读取出所有文件名称
for i in files:
	try:
		df = pd.read_excel(path+i,sheet_name = 'sheet1')
	except:
		print(i)

1.4 read_excel()参数

  • sheet_name:指定要读入的sheet
  • index_col:设置文件中的第几列作为行索引
  • header:设置文件的第几行作为列索引,默认是0
  • nrows:指明读取文件的行数
  • usecole:指定要导入的列,可以是int 或者list,也支持usecols=[‘column_name’]的写法,column_name为列名。默认None。【注意】usecols参数如果是列表,不支持切片写法
    比如:
    usecols=[1,2,3,4,5],不能写成usecols=[1:5]会报错。
data = pd.read_excel('D:\\python\\test.xlsx',usecols=list(range(10))
# 读取文件的前10行,无法用list的切片实现,所以通过range来完成。

2 read_csv()

python读取csv文件,需要用到pandas里的read_csv()方法;

2.1 read_csv()参数

  • sep:指明分隔符
  • nrows:指定读取行数
  • encoding:指定编码格式。python默认编码是UTF-8。通过参数encoding设置导入文件的编码格式。【注意】把Excel文件另存为csv格式时有两种类型:CSV UTF-8(逗号分隔)(.csv)格式 和CSV(逗号分隔) (.csv)格式,所以在导入后者时,需要加上econding = ‘gbk’,否则会报错;
  • engine指定:当文件路径或者文件名包含中文时,需要指定engine,因为当调用read_csv()方法时,默认使用C语言作为解析语言,所以需要通过engine参数把默认值C更改为Python;如果文件格式是CSV UTF-8(逗号分隔)(.csv),那么编码格式也需要跟着变为utf-8-sig,如果文件格式是CSV(逗号分隔)(.csv)格式,对应的编码格式则为gbk。
【为什么学习数据挖掘】       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。       从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。 【超实用的课程内容】      本课程为Python数据挖掘方向的入门课程,课程主要以真实数据为基础,详细介绍数据挖掘入门的流程和使用Python实现pandas与numpy在数据挖掘方向的运用,并深入学习如何运用scikit-learn调用常用的数据挖掘算法解决数据挖掘问题,为进一步深入学习数据挖掘打下扎实的基础。 本课程分为三大部分: 基础知识篇:主要讲解数据挖掘这项技能的基本工作流程和介绍和入门必须的基本技能Python语言的入门,带领大家了解数据挖掘的常见操作和基础知识。 数据采集篇:学习如何解决数据挖掘的数据来源问题,读取各类型不同的数据包括CSVexcel,MySQL进行数据采集的交互。 数据探索篇:本篇主要解决数据的预处理保证数据的质量并用常见数据挖掘算法进行特征提取,分析数据背后隐含的信息。 【报名须知】 课程采取录播模式,课程永久有效,可无限次观看 课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、优化 【如何开始学习?】 PC端:报名成功后可以直接进入课程学习 移动端:下载CSDN学院或CSDN
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页