数据基础操作

m0_51832845

于 2022-05-18 02:56:41 发布

阅读量190

点赞数

文章标签：机器学习深度学习 python

本文链接：https://blog.csdn.net/m0_51832845/article/details/124834116

版权

第一章：数据加载

1.1 数据集下载

Titanic - Machine Learning from Disaster | Kaggle

1.2 导入数据使用Numpy或Pandas导入数据。Pandas 的一项重要功能是能够编写和读取 Excel、CSV 和许多其他类型的文件并且能有效地进行处理文件。pandas可以读取的文件格式有很多，包括读取文件csv, excel, txt。

>>> import pandas as pd

>>> import numpy as np

1.3 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据

df = pd.read_csv('train.csv')

df.head()

import os

os.path.abspath('train.csv')

储存 path = os.path.abspath('train.csv')

1.4 每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.5 将表头改成中文，索引改为乘客ID [对于某些英文资料，我们可以通过翻译来更直观的熟悉我们的数据

df.rename(columns={'PassengerId':'乘客ID','Survived':'是否幸存','Pclass':'乘客等级(1/2/3等舱位)','Name':'乘客姓名','Sex':'性别','Age':'年龄','SibSp':'堂兄弟/妹个数','Parch':'父母与小孩个数','Ticket':'船票信息','Fare':'票价','Cabin':'客舱','Embarked':'登船港口'}, inplace = True)
df.head()

1.6 数据的初步观察

1.6.1 查看数据的基本信息

df.info(): # 打印摘要
df.describe(): # 描述性统计信息
df.values: # 数据 <ndarray>
df.to_numpy() # 数据 <ndarray> (推荐)
df.shape: # 形状 (行数, 列数)
df.columns: # 列标签 <Index>
df.columns.values: # 列标签 <ndarray>
df.index: # 行标签 <Index>
df.index.values: # 行标签 <ndarray>
df.head(n): # 前n行
df.tail(n): # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n: # 最多显示n行
df.memory_usage(): # 占用内存(字节B)

1.6.2 观察表格前10行的数据和后15行的数据

m0_51832845

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
数据基础操作

第一章：数据加载1.1 数据集下载Titanic - Machine Learning from Disaster | Kaggle1.2 导入数据使用Numpy或Pandas导入数据。Pandas 的一项重要功能是能够编写和读取 Excel、CSV 和许多其他类型的文件并且能有效地进行处理文件。pandas可以读取的文件格式有很多，包括读取文件csv, excel, txt。>>> import pandas as pd>>> import nump
复制链接

扫一扫