python 数据来源_Python数据分析入门教程(一)：获取数据源

最新推荐文章于 2024-03-15 17:00:00 发布

君子心理

最新推荐文章于 2024-03-15 17:00:00 发布

阅读量1k

点赞数

文章标签： python 数据来源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42620563/article/details/112992695

版权

本文是Python数据分析入门教程第一部分，介绍了如何获取数据源，包括使用Pandas的read_x()方法导入.xlsx、.csv、.txt和.sql文件，详细讲解了参数设置如指定Sheet、行索引、列索引等，并强调了熟悉数据的重要性，如预览数据、获取数据表大小和了解数据类型。

摘要由CSDN通过智能技术生成

作者 | CDA数据分析师

俗话说，巧妇难为无米之炊。不管你厨艺有多好，如果没有食材，也做不出香甜可口的饭菜来，所以想要做出饭菜来，首先要做的就是要买米买菜。而数据分析就好比是做饭，首先也应该是准备食材，也就是获取数据源。

一、导入外部数据

导入数据主要用到的是Pandas里的read_x()方法，x表示待导入文件的格式。

1、导入.xlsx文件

在Excel中导入.xlsx格式的文件时很简单的，双击打开就可以了。在Python中导入.xlsx文件的是read_excel()这种方法。

(1)基本导入

在导入文件的时候首先要指定文件的路径，也就是这个文件在电脑中的哪个文件夹下存放着。

电脑中的文件路径默认是使用\的，这个时候需要在路径前面加一个r(转义符)避免路径里面的\被转义。也可以不加转义符r，但是需要把路径里面所有的\转换成/，这个规则在导入其他格式文件的时候也是一样的，我们一般会选择在路径前面加转义符r。

(2)指定导入哪个Sheet

.xlsx格式的文件可以有很多个Sheet，你可以通过设定sheet_name参数来指定要导入哪个Sheet的文件。

除了可以指定具体Sheet的名字，还可以传入Sheet的顺序，从0开始计数。

如果不指定sheet_name参数的时候，那么默认导入的都是第一个sheet的文件。

(3)指定行索引

将本地文件导入DataFrame的时候，行索引使用的是从0 开始的默认索引，可以通过设置index_col参数来设置。

index_col表示用.xlsx文件中的第几列做行索引，从0 开始计数。

(4)指定列索引

将本地文件导入DataFrame的时候，默认使用的是源数据表的第一行作为列索引，也可以通过设置header参数来设置列索引。header参数值默认为0，即用第一行作为列索引；也可以是其他行，只需要传入具体的那一行即可；也可以使用默认从0开始的数作为列索引。

(5)指定导入列

有的时候本地文件的列数太多，而我们又不需要那么多列的时候，我们就可以通过设定usecols参数来指定要导入的列。

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 数据来源_Python数据分析入门教程(一)：获取数据源

作者 | CDA数据分析师俗话说，巧妇难为无米之炊。不管你厨艺有多好，如果没有食材，也做不出香甜可口的饭菜来，所以想要做出饭菜来，首先要做的就是要买米买菜。而数据分析就好比是做饭，首先也应该是准备食材，也就是获取数据源。一、导入外部数据导入数据主要用到的是Pandas里的read_x()方法，x表示待导入文件的格式。1、导入.xlsx文件在Excel中导入.xlsx格式的文件时很简单的，双击打开就...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。