DataWhale动手学数据分析Task01

1.第一章:数据载入及初步观察

1.1.1 载入数据

1、两种数据格式的区分及读取方式:

TSVCSV
Tab-Seperated ValuesComma-Seperated Values
利用制表符作为字段值的分隔符利用半角逗号作为字段值的分隔符
pd.read_table(‘path’)pd.read_csv(‘path’)

2、pandas中用于读取数据的常用函数及参数:

import pandas as pd
pd.read_table() #读取以制表符为字段值分隔符的文件并保存于DataFrame格式中
pd.read_csv()	#读取以半角逗号为字段值分隔符的文件并保存于DataFrame格式中
参数说明
Path表示文件系统位置、URL、文件型对象的字符串
sep用于对行中各字段进行拆分的字符序列或者正则表达式
header用于列名的序号,默认为0
names用于结果的列名列表,内容不能重复
na_values一组用于替换NA的值
chunksize文件块的大小
encoding用于Unicode的文本编码格式
usecols该参数可用于选择性读取特定列的信息

1.1.2 pandas中两种数据结构

pandas中有两种基本的数据存储数据结构,分别为Series和DataFrame。

1、Series
Series一般由序列值data、索引index、存储类型dtype、序列名字name组成,各属性可以通过句点访问。

ds = pd.Series(data=[1, 2, 3],
              index=pd.Index(['num0', 'num1', 'num2'], name='idx'),
              dtype='object',
              name='series')

在这里插入图片描述

2、DataFrame
DataFrame是在Series的基础上增加了列索引。

ds = pd.DataFrame(data=[[2,3,4],[5,6,7],[8,9,10]],
                 columns={'col_{}'.format(i): i for i in range(3)},
                 index=['row1','row2','row3'])

在这里插入图片描述

1.1.3 替换表头的两种方法

1、利用pd.read_csv()函数中的names参数对表头进行替换

df_csv3 = pd.read_csv('./train.csv',names=['乘客ID','是否幸存','乘客等级','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口'], header=0)

2、利用DataFrame属性来修改表头名字

df_csv3 = pd.read_csv('./train.csv')#.columns=['乘客ID','是否幸存','乘客等级','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
df_csv3.columns=['乘客ID','是否幸存','乘客等级','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']

1.2.1 对数据的初步观察

1、常用的汇总函数:

函数作用
head(n)返回表或序列的前n行
tail(n)返回表或序列的后n行
info()返回表的信息概况
describe()返回数值列对应的主要统计量

2、常用的特征统计函数

函数作用
quantile()返回分位数
count()返回非缺失值的个数
idxmax()返回最大值对应的索引

3、缺失数据的查看

函数作用
isna()数据缺失位置返回为True,未缺失处返回为False
isnull()数据缺失位置返回为True,未缺失处返回为False

4、两种删除特定列数据的方法

df5 = pd.read_csv('./test_1.csv')
df6 = df5.drop(labels=['a','Unnamed: 0'],axis=1,)
df6
df5 = pd.read_csv('./test_1.csv')
del df5['Unnamed: 0']
del df5['a']

5、数据排序
排序共有两种方式,一种是按值排序,一种是按索引排序,二者对应的函数分别为sort_values()、sort_index()。
对于sort_values(),函数各参数设置为:

参数作用
by指定的行数或者列数
axis为0则按列排序,为1则按行排序
inplacebool,是否用排序后的数据替换现有的数据
ascendingbool,True则升序,为False则降序

对于sort_index(),函数各参数设置为:

参数作用
by指定的行数或者列数
axis为0按行排序,为1按列排序
ascendingTrue升序排列,False降序排列
inplacebool,是否用排序后的数据替换现有的数据

1.2.2 数据筛选

表格数据中,最重要的一个功能就是要具有可筛选的能力,选出我所需要的信息,丢弃无用的信息。对于表而言,有基于元素的loc索引器与基于位置的iloc索引器

1、loc函数
loc 索引器的一般形式是loc[*, *] ,其中第一个* 代表行的选择,第二个* 代表列的选择,如果省略第二个位置写作loc[*] ,这个* 是指行的筛选。其中,* 的位置一共有五类合法对象,分别是:单个元素、元素列表、元素切片、布尔列表以及函数

2、iloc函数
iloc 的使用与loc 完全类似,只不过是针对位置进行筛选,在相应的* 位置处一共也有五类合法对象,分别是:整数、整数列表、整数切片、布尔列表以及函数,函数的返回值必须是前面的四类合法对象中的一个,其输入同样也为DataFrame 本身。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Datawhale数据分析课程是一门专门教授数据分析的课程。在这门课程中,生将习各种数据处理和分析的技巧,包括数据的载入、基本操作、可视化展示等。在第一章的习中,生主要习了如何载入数据以及如何查看数据的基本信息,例如平均值、标准差、最大最小值,还习了数据的相加和删减等基本操作,这些都为后面进行数据分析打下了基础。此外,数据可视化也是数据分析过程中非常重要的一部分。通过绘图展示数据,可以帮助人们更直观地理解数据,从而得出更准确的结论。良好的数据可视化往往需要一些技巧,比如可以使用matplotlib和seaborn等库来进行可视化操作。例如,在任务六中,使用seaborn库的kdeplot函数对泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况进行了可视化展示。此外,Pandas库中的stack()和unstack()方法也是数据分析中常用的工具,用于数据的重构、聚合与运算。通过使用这些方法,可以对数据进行更灵活的处理和分析。例如,在任务一中,通过习教材《Python for Data Analysis》和进行相关的搜索,可以了解到GroupBy机制在数据分析中的应用。总之,Datawhale数据分析课程提供了丰富的知识和技巧,帮助生掌握数据分析的基本原理和实践技能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Datawhale数据分析课程01](https://blog.csdn.net/m0_71038676/article/details/124809826)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Datawhale数据分析课程第二章](https://blog.csdn.net/miaochangq/article/details/108077004)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值