【数据分析】基于jupyter的数据集获取方法

最新推荐文章于 2024-03-01 14:16:03 发布

Algorithm F

最新推荐文章于 2024-03-01 14:16:03 发布

阅读量8k

点赞数 7

本文链接：https://blog.csdn.net/weixin_38169655/article/details/104264151

版权

首先说明，这个内容不能说完全原创，结合了其他学习平台学习的思路，加上一点自己的理解。就是记录下来方便自己之后查阅。

目录
1. 数据采集
2. 认识数据集

数据集有csv json xlsx等格式，可以储存在本地或者服务器上。在分析数据之前需要将数据集导入到Jupyter中。本次利用Pandas库（能够规范数据框架）对csv格式的汽车数据集进行试验。

1.1数据库引入和查看

#数据库引入
import pandas as pd
#引用函数pd.read_csv读取csv文件，命名为df
df = pd.read_csv("/resources/jupyter/DA001/DA001-001/imports-85.data", header = None)
#查看前10行、后10行数据，head函数
df.head(10)
df.tail(10)

1.2为数据集添加标题
从上面图可知，数据有26列，标题从最后一列开始赋值，添加一个标题就整体往前移动一格。所以一般情况下要写26个标题。（此处因为不想打字所以在后面用数字代替。）
在不进行单独赋值的前提下，pandas为数据列赋值为0，1，2…，记在df.columns中。因此直接用编辑好的表头（headers）进行替换即可。

#现将编辑好的标题存在headers（=[" ", , ]）中
headers = ["symboling",“normalizes-losses","make","fuel-type","aspiration","6","7","8","9","10","11","12","13","14","15","16","17","18","19","20","21","22","23","24","25","26"]
#将标题替换掉pandas自带的0，1，2，3，4，5...的标题
df.columns = headers
df.head(10)#查看，默认5行

前行的表头已经替换好

1.3数据的保存
用pandas里面的dataframe.to_cav()函数进行保存，括号填写本地路径以及文件名称。其中dataframe是之前引入数据时保存的名称。在这里用的是df

df.to_csv("automobile.csv")

在这里引用这个博客的方法查询默认保存路径Jupyter notebook文件默认存储路径以及更改方法
运行结果如下在这里插入图片描述
其他类型文件的保存语法

2.1数据类型
数据本身有object float int bool datetime64，有些数据集还会在后面显示64，如float64。数据类型可以通过dateframe.dtypes进行查询.

df.dtypes

2.2对数据类型进行计数和汇总
dataframe.describe()

df.describe(include = "all")

这个函数返回每列数字类型的数目、平均值、标准差、最小值、最大值、缺失值，第25%、50%、75%等，输出如下：
类型不可计算的显示为NaN

2.3只对其中的几列进行查看
语法为dataframe[[‘column name 1’, ‘…2’, ‘…3’]]

df[['6', '7','8']]

输出（直截取前几行）
数据截图不全
然后再通过引用describe函数查看这几列的信息

df[['6', '7', '8']].describe(include = "all")

显示这三列的统计结果。由于数据类型的限制下面几个都是NaN的状态，因此不显示
第二个查询列的方法是用dataframe.info函数，它可以展示数据列的前30行和后30行。但是我不太喜欢这个方式，标题和数字对不上，不如之间用notebook++看。在这里插入图片描述

Algorithm F

关注

7
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
【数据分析】基于jupyter的数据集获取方法

首先说明，这个内容不能说完全原创，结合了其他学习平台学习的思路，加上一点自己的理解。就是记录下来方便自己之后查阅。1. 数据采集2. 认识数据集数据集有csv json xlsx等格式，可以储存在本地或者服务器上。在分析数据之前需要将数据集导入到Jupyter中。本次利用Pandas库（能够规范数据框架）对csv格式的汽车数据集进行试验。1.1数据库引入和查看#数据库引入import ...
复制链接

扫一扫