数据预处理 1.1 pandas入门

pp喜欢大数据

已于 2022-12-07 19:39:12 修改

阅读量774

点赞数 2

分类专栏：数据预处理文章标签： pandas python 开发语言大数据

于 2022-11-24 11:42:22 首次发布

本文链接：https://blog.csdn.net/pmr0528/article/details/128009934

版权

本文介绍了pandas库的基础知识，包括DataFrame和Series的介绍，数据集（csv和tsv）的加载，DataFrame的行标签和列标签位置编号，以及如何通过loc和iloc获取指定行列数据的操作。

摘要由CSDN通过智能技术生成

1.DataFrame和Series简介

pandas是用于数据分析的开源Python库，可以实现数据加载，清洗，转换，统计数值，可视化等功能。pandas最基本的两种数据结构：

他们都是存储一个二维表数据的文件类型。

注意：csv文件的列元素是用逗号分割，而tsv文件每列元素用\t分割。

注意：数据文件和编写的.ipynb要放在同一文件夹下

#如果想用pandas必须导入对应的jar包
import pandas as pd
#pd是我们给jar包起的名字(虚拟环境里必须先下载pandas)

#加载csv数据集
tips=pd.read_csv('./data/tips.csv')
tips
#加载tsv数据集
china=pd.read_csv('./data/china.tsv',sep='\t')
china

注意：加载tsv时必须加上sep参数，即sep='\t'

sep参数指定tsv文件的列元素分隔符为\t

关注

专栏目录