前言
今天需要使用pytorch处理自己的数据,由于数据存储格式为txt和csv,因此需要使用pandas包。
一、pandas是什么?
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
二、使用步骤
1.读取txt格式的数据
代码如下(示例):
import pandas as pd
data = pd.read_table('./emb.txt',sep=' ',header=None)
x = data.values
print(data)
其中,read_table返回一个DataFrame,以二维形式存储。其中比较重要的就是 shape参数和values参数了。由于我的数据没有列名,所以设置 header=None 。若不写head=None,则读入txt数据时,会没了第一行的数据。sep=‘ ’ 表示我的数据使用空格作为间隔。
2.读取CSV格式的数据
pd.read_csv(filepath, sep=',',header='infer')
1.filepath: 文件所在处的路径;
2.sep:指定分隔符,默认为逗号’,’;
3.header:int or list of ints, default ‘infer’。指定哪一行作为表头。默认设置为0(即第一行作为表头),如果没有表头的话,要修改参数,设置header=None。
下面附一张参数详解图:
三、总结
以上就是今天要讲的内容,本文简单介绍了如何使用pandas加载本地数据,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。