[数据处理][Pandas] .csv文件提取行列 | 统计次数 | 读取文件

让我安静会

已于 2022-11-26 11:25:18 修改

阅读量3.1k

点赞数 2

分类专栏： model-pytorch 文章标签： pandas

于 2021-08-08 16:35:28 首次发布

本文链接：https://blog.csdn.net/qq_31225201/article/details/119515075

版权

model-pytorch 专栏收录该内容

51 篇文章 2 订阅

订阅专栏

1. loc 和iloc 提取行、列

loc：通过具体索引来提取行；
iloc：通过行号来提取行。
iloc不管是有索引还是无索引都可以用iloc来提取，比如：

data.iloc[:, [0, 1]]  # [行，列]

指，提取data文件的所有行的第0列和第1列。

2. value_counts() 统计值的重复次数

（1）.value_counts()
统计有多少值，以及每个值的重复次数。

（2）.reset_index()
重置索引。

（3）.sort_index()
按照key进行排序

3. pd.read_csv() 读取文件 | pd.to_csv() 存储文件

读取文件。
例如：

path = '../xx.csv'
f1_df = pd.read_csv(path, sep=',', names=['a1', 'a2'], header=0)
# 当文件第一列无索引的时候，可以使用'names='加上索引，方便后续对数据进行操作
# 当文件第一列有索引的时候，可以使用header=0表明第一行为索引，后续数据统计时不算第一行

listt = [1,2,3,4,5]
# 创建空的DataFrame
f2_df = pd.DataFrame(columns= ['b1', 'b2', 'b3'])
f2_df['b1'] = d1_df['a1']  # 可以直接进行赋值
f2_df['b2'] = d1_df['a2']
f2_df['b3'] = listt        # 也可以将list赋值，注意len(listt)应该与上述len(d1_df['a1'])、len(d1_df['a2'])长度一致。
f2_df.to_csv(path, sep='\t', columns=['b1', 'b2'], header=True)
# 指定f2_df列进行保存，否则全部保存。

4. csv.reader(df) 读取文件

import csv

path = '../xx.csv'
df = open(path, 'r')
next(df) # 跳过第一行
file = csv.reader(df)  # b1, b2, b3
for line in df:  # line是list
    b1 = line[0]
    b2 = line[1]
    b3 = line[2]

参考：

1.Pandas中loc和iloc函数用法详解：https://blog.csdn.net/qq_33217634/article/details/88423660
2. pandas中.value_counts()的用法：https://www.jianshu.com/p/f773b4b82c66
3. pandas 读取文件加入列索引：https://blog.csdn.net/u010211479/article/details/79178910?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EsearchFromBaidu%7Edefault-1.pc_relevant_baidujshouduan&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EsearchFromBaidu%7Edefault-1.pc_relevant_baidujshouduan
4. python – pandas Series.value_counts返回相等计数字符串的不一致顺序：http://www.voidcn.com/article/p-epmympot-bve.html

让我安静会

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
[数据处理][Pandas] .csv文件提取行列 | 统计次数 | 读取文件

Pandas常用基本操作import pandas as pd1.loc 和iloc 提取行、列loc：通过具体索引来提取行；iloc：通过行号来提取行。iloc不管是有索引还是无索引都可以用iloc来提取，比如：data.iloc[:, [0, 1]] # [行，列]指，提取data文件的所有行的第0列和第1列。2. value_counts()统计有多少值，以及每个值的重复次数。3. pd.read_csv()读取文件。例如：path = open('../xx.csv')
复制链接

扫一扫