数据分析初回-探索性数据分析

本文介绍了一次基于kaggle泰坦尼克数据集的数据分析实践,涵盖数据载入、初步观察和基本操作。使用Python的pandas库进行数据处理,包括数据分块读取、查看数据(head()和tail())、统计信息、缺失值检查以及数据操作如列删除和排序。通过这些步骤对数据进行深入理解,为后续的数据分析打下基础。
摘要由CSDN通过智能技术生成

探索性数据分析

本文记录2022年3月组队学习-动手学数据分析教程知识点,采用kaggle上泰坦尼克的任务,实战数据分析全流程。
教程内容开源地址:
github: https://github.com/datawhalechina/hands-on-data-analysis
gitee:https://gitee.com/datawhalechina/hands-on-data-analysis

1 第一章:数据载入及初步观察

数据集下载 https://www.kaggle.com/c/titanic/overview

1.1 导库

本次主要使用python的Pandas库,numpy库对结构化数据进行探索性研究。

import numpy as np
import pandas as pd
1.2 载入数据

知识点:

  1. 相对路径绝对路径
  • 相对路径: 相对于当前文件的路径 注意./与…/区别 前者表示当前文件夹 后者表示上一级文件夹。
  • 绝对路径: 当前文件在磁盘上真正存在的位置 。

一般使用相对路径避免因为文件位置变化而引起配置路径出现问题,需要注意绝对路径的划分符为"/"

  1. pandas读取数据函数read_csvread_table
  • pandas中读取数据函数为read开头,例如read_csvread_table, read_csv是pandas中读取以","进行划分的数据,返回为DataFrame表格类型结构。
  • read_table可以读取以制表符"\t"进行划分的数据集,因此可以读取".tsv"结尾数据集等等。
    二者本质没有较大区别,因划分符的不同而作用于不同的数据集,但我们可以通过指定str参数指定当前数据集的划分符。
# 使用相对路径载入数据
train_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test_1.csv")

# python自带库函数os 可以查询当前文件在系统中的绝对路径
import os
os.getcwd()

#  'E:\\python参考\\hands-on-data-analysis-master (1)\\hands-on-data-analysis-master\\第一单元项目集合'

# 使用绝对路径载入数据
train_data = pd.read_csv("E:/python参考/hands-on-data-analysis-master (1)/hands-on-data-analysis-master/第一单元项目集合/train.csv")
test_data = pd.read_csv("E:/python参考/hands-on-data-analysis-master (1)/hands-on-data-analysis-master/第一单元项目集合/test_1.csv")

# 指定划分符为","
pd.read_table("train.csv", ",")
  1. 大型数据集处理方法,设置chunksize参数
  • 当遇到文件过大,导致内存不足时,可以先把整个文件拆分成小块(chunk), 一个chunk就是我们数据的一个小组.通过chunksize参数可以指定我们迭代块的大小, 也可以通过设置iterator参数(默认为False)为True后,通过迭代对象的get_chunk方法迭代获得任意行。
  • chunk块为dataframe类型,每次for循环输出就是chunk大小的dataframe表格。
  • 分块读取可以减少每次处理数据集的大小,加快运算时间,避免数据集过大无法读取或者读取过慢。
chunk = pd.read_csv("train.csv", chunksize=1000)
printg(chunk)
#     <pandas.io.parsers.TextFileReader at 0x1538e1e33c8> 获得是一个可迭代对象 大小为chunksize值

for temp in chunk
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值