数据预处理 1.1 pandas入门

本文介绍了pandas库的基础知识,包括DataFrame和Series的介绍,数据集(csv和tsv)的加载,DataFrame的行标签和列标签位置编号,以及如何通过loc和iloc获取指定行列数据的操作。
摘要由CSDN通过智能技术生成

目录

1.DataFrame和Series简介

 1.DataFrame

  2.Series

2.加载数据集(csv和tsv)

2.1csv和tsv文件格式简介

2.1 加载数据集(tsv和csv)

3. DataFrame的行标签和列标签位置编号

3.1 DataFrame的行标签和列标签

3.2 DataFrame的行位置编号和列位置编号

4. DataFrame获取指定行列标签

 4.1 loc函数获取指定行列标签数据

4.2 iloc函数获取指定行列标签数据

4.3 loc和iloc的切片操作

4.4 []语法获取指定行列的数据


1.DataFrame和Series简介

pandas是用于数据分析的开源Python库,可以实现数据加载,清洗,转换,统计数值,可视化等功能。pandas最基本的两种数据结构:

 1.DataFrame

  •   用来处理结构化数据(SQL数据表,Excel表格)
  •   可以简单理解为一张数据表(带有行标签和列标签)

  2.Series

  •   用来处理单列数据,也可以把DataFrame看作Series对象组成的字典或集合
  •   可以简单理解为数据表的一行或一列

2.加载数据集(csv和tsv)

2.1csv和tsv文件格式简介

他们都是存储一个二维表数据的文件类型。

注意:csv文件的列元素是用逗号分割,而tsv文件每列元素用\t分割。

2.1 加载数据集(tsv和csv)

注意:数据文件和编写的.ipynb要放在同一文件夹下

  1. 打开jupyter notebook
  2. 导入pandas包(pandas不是Python标准库,所以需要导入)
  3. 分别加载csv和tsv文件数据集
#如果想用pandas必须导入对应的jar包
import pandas as pd
#pd是我们给jar包起的名字(虚拟环境里必须先下载pandas)
#加载csv数据集
tips=pd.read_csv('./data/tips.csv')
tips
#加载tsv数据集
china=pd.read_csv('./data/china.tsv',sep='\t')
china

注意:加载tsv时必须加上sep参数,即sep='\t'

sep参数指定tsv文件的列元素分隔符为\t

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值