python程序分析经济数据_【经济金融及Python应用讲义】数据管理专题（一）

最新推荐文章于 2024-06-09 09:52:09 发布

weixin_39970994

最新推荐文章于 2024-06-09 09:52:09 发布

阅读量281

点赞数

文章标签： python程序分析经济数据

原标题：【经济金融及Python应用讲义】数据管理专题（一）

【经济金融及Python应用讲义】数据管理——获取数据源 1、导入外部数据

导入数据主要用到Pandas里面的read_x方法，其中x表示导入文件的格式

1、导入Excel格式数据

#首先生成数据

#stata导出数据

. sysuse auto . dta

( 1978 Automobile Data )

. export excel C : UsersadminDesktopauto . xls , firstrow ( variables )

file C : UsersadminDesktopauto . xls saved

导入Excel格式数据

#导入数据

import numpy as np

import pandas as pd

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' )

df

#等价于

df = pd . read_excel ( 'C:/Users/admin/Desktop/auto.xls' )

或者

df = pd . read_excel ( 'C:UsersadminDesktopauto.xls' )

指定导入哪个sheet

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' ， sheet_name = "sheet1" )

df

第一个参数是路径，既可以使用绝对路径又可以使用相对路径，如果文件名含有汉字，注意指定设置一下属性encoding = 'utf-8',另设置sheet_name指定具体的Sheet名字，也可传入sheet的顺序，从0开始。

如果没有指定sheet name的名字，导入数据默认为第一个sheet的文件，除了指定sheetname的名字之外，还可以传入sheet的顺序，默认从0开始

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' ， sheet_name = 0 )

df

指定行索引

行索引使用的是从0开始的默认索引，通过index_col设置

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' , sheet_name = 0 , index_col = 0 )

df

指定列索引

本地文件导入DataFrame时候，默认使用数据表的第一行作为列索引，可以通过header参数来设置列索引，header的参数默认值是0，即用第一行作为列索引，也可以是其他行，只需要传入具体行的数字即可，也可以使用默认的从0开始的数字作为列索引

使用第一行作为列索引

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' , sheet_name = 0 , header = 0 )

df

第二行作为列索引

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' , sheet_name = 0 , header = 1 )

df

默认从 0 开始的数字作为列索引

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' , sheet_name = 0 , header = none )

df

导入指定列

有的时候本地文件的列数太多，而我们不需要那么多列时，我们可以通过设定usecols参数来指定要导入的列

导入第一列

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' , usecols = 0 )

df

可以给参数具体的某个值表示要导入第几列，同样是从零开始，也可以以列表的形式传入多个值，表示要传入哪些列

列表形式导入

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' , usecols =[ 0 : 5 ] )

df

2、利用head预览数据

当数据表中的包括数据行数比较多的时候，我们又想查看数据是什么样的数据时，这可以把数据表中前几行数据显示出来进行查看。

在python中，当一个文件导入时，可以用head方法来控制要显示的那几行，只需要在head后面的括号中输入要展现的行数即可，默认是展示前5行。

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' )

#默认展现前5行

df . head

#展现前3行

df . head ( 3 )

3、shape查看数据表大小

熟悉数据的第一点是看一下数据表的大小及数据表中有多少行，有多少列。

在python中获取数据表的行列是shape方法。shape方法会以元组的形式返回行列数

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' )

df . shape

注意python中shape方法获取行数和列数不会把行索引和列索引计算在内，而Excel中是把行索引和列索引计算在内的。

4、info方法获取数据类型

熟悉数据的一个思路就是看一下数据类型，不同的数据类型分析思路，是不一样的，比如数值类型的数据可以求均值，但是字符串数据的类型就没法求均值。

在Excel中，如果想看某一类数据具体是某什么类型，只需要把这一列选中，然后在菜单栏中的数字那一栏就可以看到这一列的数据类型

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' )

df . info

5、describe方法获取数据描述分析

探索性分析获取分布情况及均值是多少？最值是多少，方差等是多少？

在python中只需要使用describe方法就可以获取所有数据的探索性分析返回搜狐，查看更多

df = pd . read_excel ( r 'C:UsersadminDesktopauto.xls' )

df . describe

责任编辑：

weixin_39970994

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python程序分析经济数据_【经济金融及Python应用讲义】数据管理专题（一）

原标题：【经济金融及Python应用讲义】数据管理专题（一）【经济金融及Python应用讲义】数据管理——获取数据源 1、导入外部数据导入数据主要用到Pandas里面的read_x方法，其中x表示导入文件的格式1、导入Excel格式数据#首先生成数据#stata导出数据. sysuse auto . dta( 1978 Automobile Data ). export excel C : Us...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。