目录
1.DataFrame和Series简介
pandas是用于数据分析的开源Python库,可以实现数据加载,清洗,转换,统计数值,可视化等功能。pandas最基本的两种数据结构:
1.DataFrame
- 用来处理结构化数据(SQL数据表,Excel表格)
- 可以简单理解为一张数据表(带有行标签和列标签)
2.Series
- 用来处理单列数据,也可以把DataFrame看作Series对象组成的字典或集合
- 可以简单理解为数据表的一行或一列
2.加载数据集(csv和tsv)
2.1csv和tsv文件格式简介
他们都是存储一个二维表数据的文件类型。
注意:csv文件的列元素是用逗号分割,而tsv文件每列元素用\t分割。
2.1 加载数据集(tsv和csv)
注意:数据文件和编写的.ipynb要放在同一文件夹下
- 打开jupyter notebook
- 导入pandas包(pandas不是Python标准库,所以需要导入)
- 分别加载csv和tsv文件数据集
#如果想用pandas必须导入对应的jar包
import pandas as pd
#pd是我们给jar包起的名字(虚拟环境里必须先下载pandas)
#加载csv数据集
tips=pd.read_csv('./data/tips.csv')
tips
#加载tsv数据集
china=pd.read_csv('./data/china.tsv',sep='\t')
china
注意:加载tsv时必须加上sep参数,即sep='\t'
sep参数指定tsv文件的列元素分隔符为\t