Pandas 笔记 (一)

TBAALi

已于 2022-03-05 22:30:05 修改

阅读量2.2k

点赞数

分类专栏： DL & ML 文章标签： c++ python 矩阵

于 2022-03-05 22:24:50 首次发布

本文链接：https://blog.csdn.net/TBAALi/article/details/123302567

版权

DL & ML 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Pandas 笔记

# Pandas 提供高性能、易于使用的数据结构和数据分析工具
# Pandas 可以从 CSV、JSON、SQL、MICROSOFTEXCEL 导入数据
# Pandas 可以对各种数据进行运算操作，比如归并、再形成、选择、还有数据清洗和特征加工
# Pandas 主要数据结构是 Series (一维数据) 与 DataFrame （二维数据）
# Series 是一种类似于一维数组的对象，它由一组数据 (各种 Numpy 数据类型) 以及一组与之对应的
# 数据标签 (即索引) 组成。
# DataFrame 是一种表格形式的数据结构，它含有一组有序的列，每列可以是不同的值类型 (数值、字符串、
# 布尔类型)。 DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典 (共同用一个索引)。

import pandas as pd

print(pd.__version__)

mydataset = {
    'sites' : ["Google", "Runoob", "Wiki"],
    'number' : [1, 2, 3]
}

myvar = pd.DataFrame(mydataset)

print(myvar)

'''
Pandas Series 类似表格中的一个列 (column)，类似于一维数组，可以保存任何数据类型
Series 由索引 (index) 和列组成
pandas.Series(data, index, dtype, name, copy)
    data    一维数组 (ndarray 类型)
    index   数据索引标签，如果不指定，默认从 0 开始
    dtype   数据类型
    name    设置名称
    copy    拷贝数据，默认为 false
'''

a = [1, 2, 3]
myvar = pd.Series(a)
print(myvar)

'''
DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型 (数值、字符串、
布尔型值)。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典 (共用一个索引)。

    idx  Column-1  Column-2  ...  Column-k
    ...   ...      ...       ...  ...
    
pandas.DataFrame(data, index, columns, dtype, copy)
    data    一组数据 (ndarry、series、map、lists、dict 等类型)
    index   索引值，或者可以称为行标签
    columns 列标签，默认为 RangeIndex (0, 1, 2, 3, ..., n)
    dtype   数据类型
    copy    拷贝数据，默认为 false    
'''

data = [
    ['Google', 10], ['Runoob', 12], ['Wiki', 13]
]

df = pd.DataFrame(data, columns = ['Site', 'Age'], dtype = float)
print(df)

# Pandas 可以使用 loc 属性返回指定行的数据
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

# Pandas 读取 csv  文件
df = pd.read_csv('nba.csv')
print(df)
print(df.to_string())

# 可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件

# head 方法用于读取前面 n 行，如果不填参数 n，默认返回 5 行
# tail 方法用于读取末尾的 n 行，默认为 5 行
# info 返回表格的一些基本信息
print(df.head())
print(df.info())

# pandas 处理 json
URL = 'https://static.runoob.com/download/sites.json'
df = pd.read_json(URL)
print(df)

# 数据清洗是对一些没有用的数据进行处理的过程
# 很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要对使数据分析更加准确，
# 就需要对这些没有用的数据进行处理
# dropna 删除包含空字段的行
# fillna 来替换一些空字符
# mean median mode 方法计算列的均值、中位数值和众数
# to_datetime 格式化日期
# duplicated 清洗重复数据

TBAALi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas 笔记 (一)

Pandas 笔记# Pandas 提供高性能、易于使用的数据结构和数据分析工具# Pandas 可以从 CSV、JSON、SQL、MICROSOFTEXCEL 导入数据# Pandas 可以对各种数据进行运算操作，比如归并、再形成、选择、还有数据清洗和特征加工# Pandas 主要数据结构是 Series (一维数据) 与 DataFrame （二维数据）# Series 是一种类似于一维数组的对象，它由一组数据 (各种 Numpy 数据类型) 以及一组与之对应的# 数据标签 (即索引) 组成
复制链接

扫一扫