python 数据来源_Python数据分析入门教程(一):获取数据源

本文是Python数据分析入门教程第一部分,介绍了如何获取数据源,包括使用Pandas的read_x()方法导入.xlsx、.csv、.txt和.sql文件,详细讲解了参数设置如指定Sheet、行索引、列索引等,并强调了熟悉数据的重要性,如预览数据、获取数据表大小和了解数据类型。
摘要由CSDN通过智能技术生成

作者 | CDA数据分析师

俗话说,巧妇难为无米之炊。不管你厨艺有多好,如果没有食材,也做不出香甜可口的饭菜来,所以想要做出饭菜来,首先要做的就是要买米买菜。而数据分析就好比是做饭,首先也应该是准备食材,也就是获取数据源。

一、导入外部数据

导入数据主要用到的是Pandas里的read_x()方法,x表示待导入文件的格式。

1、导入.xlsx文件

在Excel中导入.xlsx格式的文件时很简单的,双击打开就可以了。在Python中导入.xlsx文件的是read_excel()这种方法。

(1)基本导入

在导入文件的时候首先要指定文件的路径,也就是这个文件在电脑中的哪个文件夹下存放着。

电脑中的文件路径默认是使用\的,这个时候需要在路径前面加一个r(转义符)避免路径里面的\被转义。也可以不加转义符r,但是需要把路径里面所有的\转换成/,这个规则在导入其他格式文件的时候也是一样的,我们一般会选择在路径前面加转义符r。

(2)指定导入哪个Sheet

.xlsx格式的文件可以有很多个Sheet,你可以通过设定sheet_name参数来指定要导入哪个Sheet的文件。

除了可以指定具体Sheet的名字,还可以传入Sheet的顺序,从0开始计数。

如果不指定sheet_name参数的时候,那么默认导入的都是第一个sheet的文件。

(3)指定行索引

将本地文件导入DataFrame的时候,行索引使用的是从0 开始的默认索引,可以通过设置index_col参数来设置。

index_col表示用.xlsx文件中的第几列做行索引,从0 开始计数。

(4)指定列索引

将本地文件导入DataFrame的时候,默认使用的是源数据表的第一行作为列索引,也可以通过设置header参数来设置列索引。header参数值默认为0,即用第一行作为列索引;也可以是其他行,只需要传入具体的那一行即可;也可以使用默认从0开始的数作为列索引。

(5)指定导入列

有的时候本地文件的列数太多,而我们又不需要那么多列的时候,我们就可以通过设定usecols参数来指定要导入的列。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值