1. loc 和iloc 提取行、列
loc:通过具体索引来提取行;
iloc:通过行号来提取行。
iloc
不管是有索引还是无索引都可以用iloc
来提取,比如:
data.iloc[:, [0, 1]] # [行,列]
指,提取data文件的所有行的第0列和第1列。
2. value_counts() 统计值的重复次数
(1).value_counts()
统计有多少值,以及每个值的重复次数。
(2).reset_index()
重置索引。
(3).sort_index()
按照key进行排序
3. pd.read_csv() 读取文件 | pd.to_csv() 存储文件
读取文件。
例如:
path = '../xx.csv'
f1_df = pd.read_csv(path, sep=',', names=['a1', 'a2'], header=0)
# 当文件第一列无索引的时候,可以使用'names='加上索引,方便后续对数据进行操作
# 当文件第一列有索引的时候,可以使用header=0表明第一行为索引,后续数据统计时不算第一行
listt = [1,2,3,4,5]
# 创建空的DataFrame
f2_df = pd.DataFrame(columns= ['b1', 'b2', 'b3'])
f2_df['b1'] = d1_df['a1'] # 可以直接进行赋值
f2_df['b2'] = d1_df['a2']
f2_df['b3'] = listt # 也可以将list赋值,注意len(listt)应该与上述len(d1_df['a1'])、len(d1_df['a2'])长度一致。
f2_df.to_csv(path, sep='\t', columns=['b1', 'b2'], header=True)
# 指定f2_df列进行保存,否则全部保存。
4. csv.reader(df) 读取文件
import csv
path = '../xx.csv'
df = open(path, 'r')
next(df) # 跳过第一行
file = csv.reader(df) # b1, b2, b3
for line in df: # line是list
b1 = line[0]
b2 = line[1]
b3 = line[2]
参考:
1.Pandas中loc和iloc函数用法详解:https://blog.csdn.net/qq_33217634/article/details/88423660
2. pandas中.value_counts()的用法:https://www.jianshu.com/p/f773b4b82c66
3. pandas 读取文件 加入列索引:https://blog.csdn.net/u010211479/article/details/79178910?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EsearchFromBaidu%7Edefault-1.pc_relevant_baidujshouduan&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EsearchFromBaidu%7Edefault-1.pc_relevant_baidujshouduan
4. python – pandas Series.value_counts返回相等计数字符串的不一致顺序:http://www.voidcn.com/article/p-epmympot-bve.html