【数据分析】基于jupyter的数据集获取方法

首先说明,这个内容不能说完全原创,结合了其他学习平台学习的思路,加上一点自己的理解。就是记录下来方便自己之后查阅。

目录
1. 数据采集
2. 认识数据集

数据集有csv json xlsx等格式,可以储存在本地或者服务器上。在分析数据之前需要将数据集导入到Jupyter中。本次利用Pandas库(能够规范数据框架)对csv格式的汽车数据集进行试验。

1.1数据库引入和查看

#数据库引入
import pandas as pd
#引用函数pd.read_csv读取csv文件,命名为df
df = pd.read_csv("/resources/jupyter/DA001/DA001-001/imports-85.data", header = None)
#查看前10行、后10行数据,head函数
df.head(10)
df.tail(10)

输出

1.2为数据集添加标题
从上面图可知,数据有26列,标题从最后一列开始赋值,添加一个标题就整体往前移动一格。所以一般情况下要写26个标题。(此处因为不想打字所以在后面用数字代替。)
在不进行单独赋值的前提下,pandas为数据列赋值为0,1,2…,记在df.columns中。因此直接用编辑好的表头(headers)进行替换即可。

#现将编辑好的标题存在headers(=[" ", , ])中
headers = ["symboling",“normalizes-losses","make","fuel-type","aspiration","6","7","8","9","10","11","12","13","14","15","16","17","18","19","20","21","22","23","24","25","26"]
#将标题替换掉pandas自带的0,1,2,3,4,5...的标题
df.columns = headers
df.head(10)#查看,默认5行

前行的表头已经替换好

1.3数据的保存
用pandas里面的dataframe.to_cav()函数进行保存,括号填写本地路径以及文件名称。其中dataframe是之前引入数据时保存的名称。在这里用的是df

df.to_csv("automobile.csv")

在这里引用这个博客的方法查询默认保存路径Jupyter notebook文件默认存储路径以及更改方法
运行结果如下在这里插入图片描述
其他类型文件的保存语法
无

2.1数据类型
数据本身有object float int bool datetime64,有些数据集还会在后面显示64,如float64。数据类型可以通过dateframe.dtypes进行查询.

df.dtypes

2.2对数据类型进行计数和汇总
dataframe.describe()

df.describe(include = "all")

这个函数返回每列数字类型的数目、平均值、标准差、最小值、最大值、缺失值,第25%、50%、75%等,输出如下:
类型不可计算的显示为NaN

2.3只对其中的几列进行查看
语法为dataframe[[‘column name 1’, ‘…2’, ‘…3’]]

df[['6', '7','8']]

输出(直截取前几行)
数据截图不全
然后再通过引用describe函数查看这几列的信息

df[['6', '7', '8']].describe(include = "all")

显示这三列的统计结果。由于数据类型的限制下面几个都是NaN的状态,因此不显示
第二个查询列的方法是用dataframe.info函数,它可以展示数据列的前30行和后30行。但是我不太喜欢这个方式,标题和数字对不上,不如之间用notebook++看。在这里插入图片描述

  • 7
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值