Pandas数据处理基础2---数据读取、基本操作及其用法

最新推荐文章于 2022-07-30 15:08:08 发布

阳光下的米雪

最新推荐文章于 2022-07-30 15:08:08 发布

阅读量255

点赞数

分类专栏： Pandas数据处理文章标签： python 大数据

本文链接：https://blog.csdn.net/qq_38530648/article/details/103563945

版权

Pandas数据处理专栏收录该内容

7 篇文章 1 订阅

订阅专栏

数据读取

我们想要使用 Pandas 来分析数据，那么首先需要读取数据。大多数情况下，数据都来源于外部的数据文件或者数据库。Pandas 提供了一系列的方法来读取外部数据，非常全面。下面，我们以最常用的 CSV 数据文件为例进行介绍。
读取csv文件的方法是pandas.read_csv(),传入的参数是相对路径或者是网络URL

df=pd.read_csv("https://labfile.oss.aliyuncs.com/courses/906/los_census.csv")
df

输出结果(由于图片太大，仅截取部分)：
在这里插入图片描述由于 CSV 存储时是一个二维的表格，那么 Pandas 会自动将其读取为 DataFrame 类型。DataFrame 是 Pandas 构成的核心。一切的数据，无论是外部读取还是自行生成，我们都需要先将其转换为 Pandas 的 DataFrame 或者 Series 数据类型。实际上，大多数情况下，这一切都是设计好的，无需执行额外的转换工作。
pd.read_ 前缀开始的方法还可以读取各式各样的数据文件，且支持连接数据库。

为什么要将数据转换为 Series 或者 DataFrame 结构？
因为 Pandas 针对数据操作的全部方法都是基于 Pandas 支持的数据结构设计的。也就是说，只有 Series 或者 DataFrame 才能使用 Pandas 提供的方法和函数进行处理。所以，学习真正数据处理方法之前，我们需要将数据转换生成为 Series 或 DataFrame 类型。

基本操作

通过上面的内容，我们已经知道一个 DataFrame 结构大致由 3 部分组成，它们分别是列名称、索引和数据。
在这里插入图片描述上面，我们已经读取了一个外部数据，这是洛杉矶的人口普查数据。有些时候，我们读取的文件很大。如果全部输出预览这些文件，既不美观，又很耗时。还好，Pandas 提供了 head() 和 tail() 方法，它可以帮助我们只预览一小块数据。