1.read_csv()
基于 Python 和 NumPy 开发的 Pandas,在数据分析领域,应用非常广泛。而使用 Pandas 处理数据的第一步往往就是读入数据,比如读写 CSV 文件,而Pandas也提供了强劲的读取支持。
pandas读取csv文件时通过read_csv函数读取的,也可以读取txt文件,为dateFrames数据框格式。
for pc_path in glob.glob(os.path.join(dataset_path, '*.txt')):
d = pd.read_csv(pc_path,header=None, delim_whitespace=True, dtype=np.float16)
print(d)
break
利用read_csv(.txt)读取一份点云数据的txt文件,结果如下:
包含4000多万个点,每个点含7个信息数据。
参数
delimiter_whitespace
0.18 版本后新加参数,默认为 False,设置为 True 时,表示分割符为空白字符,可以是空格、 \t 等。
如下 girl.csv 文件分隔符为\t,设置 delim_whitespace 为 True:
In [4]: df = pd.read_csv('girl.csv',delim_whitespace=True)
In [5]: df
Out[5]:
name age gender
0 椎名真白 18 女
1 古明地觉 17 女
2 古明地恋 16 女
不管分隔符是什么,只要是空白字符,那么可以通过delim_whitespace=True进行读取
header
设置导入 DataFrame 的列名称,默认为 ‘infer’,注意它与下面介绍的 names 参数的微妙关系。
names
当names没被赋值时,header会变成0,即选取数据文件的第一行作为列名。
当 names 被赋值,header 没被赋值时,那么header会变成None。如果都赋值,就会实现两个参数的组合功能。
- names 没有被赋值,header 也没赋值:选取文件的第一行作为表头
name age gender
0 椎名真白 18 女
1 古明地觉 17 女
2 古明地恋 16 女
- names 没有赋值,header 被赋值:不指定names,指定header为1,则选取第二行当做表头,第二行下面的是数据
椎名真白 18 女
0 古明地觉 17 女
1 古明地恋 16 女
- names 被赋值,header 没有被赋值
In [1]: df = pd.read_csv('girl.csv', delim_whitespace=True, names=["姓名", "年龄", "性别"])
In [2]: df
Out[2]:
姓名 年龄 性别
0 name age gender
1 椎名真白 18 女
2 古明地觉 17 女
3 古明地恋 16 女
我们看到names适用于没有表头的情况
指定names没有指定header,那么header相当于None
一般来说,读取文件会有一个表头的,一般是第一行,但是有的文件只是数据而没有表头
那么这个时候我们就可以通过names手动指定、或者生成表头,而文件里面的数据则全部是内容
所以这里那么name、age、gender也当成是一条记录了,本来它是表头的,但是我们指定了names,所以它就变成数据了,表头是我们在names里面指定的
- names和header都被赋值
In [1]: df = pd.read_csv('girl.csv',
delim_whitespace=True,
names=["姓名", "年龄", "性别"],
header=0)
In [2]: df
Out[2]:
姓名 年龄 性别
0 椎名真白 18 女
1 古明地觉 17 女
2 古明地恋 16 女
这个相当于先不看names,只看header,我们说header等于0代表什么呢?显然是把第一行当做表头,下面的当成数据,然后再把表头用names给替换掉
2.pandas.DataFrame.values
返回DataFrame的numpy数组形式