数据基础操作

第一章:数据加载

1.1 数据集下载

Titanic - Machine Learning from Disaster | Kaggle

1.2 导入数据使用Numpy或Pandas导入数据。Pandas 的一项重要功能是能够编写和读取 Excel、CSV 和许多其他类型的文件并且能有效地进行处理文件。pandas可以读取的文件格式有很多,包括读取文件csv, excel, txt。

>>> import pandas as pd

>>> import numpy as np

1.3 载入数据

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据

df = pd.read_csv('train.csv')

df.head()

import os

os.path.abspath('train.csv')

储存    path = os.path.abspath('train.csv')

1.4 每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

1.5 将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据

df.rename(columns={'PassengerId':'乘客ID','Survived':'是否幸存','Pclass':'乘客等级(1/2/3等舱位)','Name':'乘客姓名','Sex':'性别','Age':'年龄','SibSp':'堂兄弟/妹个数','Parch':'父母与小孩个数','Ticket':'船票信息','Fare':'票价','Cabin':'客舱','Embarked':'登船港口'}, inplace = True)
df.head()

 

1.6 数据的初步观察

1.6.1 查看数据的基本信息

df.info():          # 打印摘要
df.describe():      # 描述性统计信息
df.values:          # 数据 <ndarray>
df.to_numpy()       # 数据 <ndarray> (推荐)
df.shape:           # 形状 (行数, 列数)
df.columns:         # 列标签 <Index>
df.columns.values:  # 列标签 <ndarray>
df.index:           # 行标签 <Index>
df.index.values:    # 行标签 <ndarray>
df.head(n):         # 前n行
df.tail(n):         # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n:    # 最多显示n行
df.memory_usage():                # 占用内存(字节B)

 

1.6.2 观察表格前10行的数据和后15行的数据 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Kaggle是一个面向数据科学家和机器学习爱好者的在线平台,提供了各种数据集、竞赛和学习资源。使用Kaggle进行数据分析可以按照以下步骤进行: 1. 注册Kaggle账号:在Kaggle官网上注册一个账号,这样你就可以参与竞赛、下载数据集和提交结果。 2. 探索数据集:在Kaggle上浏览并搜索你感兴趣的数据集。你可以通过数据集页面上的描述、特征列和样本预览来了解数据集的基本信息。 3. 下载数据集:一旦你找到了感兴趣的数据集,你可以点击"Download"按钮来下载数据集。通常情况下,数据集会以CSV或者其他常见的数据格式进行存储。 4. 数据清洗和预处理:在开始分析之前,你可能需要对数据进行清洗和预处理。这包括处理缺失值、去除异常值、标准化数据等。 5. 数据可视化:使用数据可视化工具(如Matplotlib、Seaborn等)来探索数据的分布、关系和趋势。可视化可以帮助你更好地理解数据。 6. 特征工程:根据你的问题和数据集,进行特征工程来创建新的特征或者选择合适的特征。这可以提高模型的性能。 7. 模型选择和训练:根据你的问题类型(分类、回归等)选择合适的模型,并使用训练数据对模型进行训练。 8. 模型评估和调优:使用验证集或者交叉验证来评估模型的性能,并对模型进行调优,以提高其准确性和泛化能力。 9. 提交结果:如果你参与了Kaggle的竞赛,你可以使用测试集来验证你的模型,并将结果提交到Kaggle上进行评估。 总的来说,Kaggle提供了一个丰富的数据科学社区和工具,可以帮助你进行数据分析和机器学习实践。通过参与竞赛和与其他数据科学家交流,你可以不断学习和提高自己的技能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值