机器学习基础三部曲之pandas
Pandas 简介
Pandas 是用于进行数据分析和建模的重要库,广泛应用于 TensorFlow 编码。该教程提供了学习本课程所需的全部 Pandas 信息
学习目标
- 大致了解 pandas 库的 DataFrame 和 Series 数据结构
- 存取和处理 DataFrame 和 Series 中的数据
- 将 CSV 数据导入 pandas 库的 DataFrame
- 对 DataFrame 重建索引来随机打乱数据
基本概念
pandas 中的主要数据结构被实现为以下两类:
- DataFrame,您可以将它想象成一个关系型数据表格,其中包含多个行和已命名的列。
- Series,它是单一列。DataFrame 中包含一个或多个 Series,每个 Series 均有一个名称。
数据框架是用于数据操控的一种常用抽象实现形式。Spark 和 R 中也有类似的实现。
pandas使用笔记
例1:
import pandas as pd
#导入pandas模块
california_housing_dataframe = pd.read_csv("https://download.mlcc.google.cn/mledu-datasets/california_housing_train.csv", sep=",")
#read_csv读取csv文件
california_housing_datafra