- 在数据中,如果已知某一列的列名,但又需要知道这一列的列索引(即在第几列),便可以使用下面这个函数
import pandas as pd
data = pd.read_csv('data.csv', encoding='gbk')
col_idx = data.columns.get_loc('列名')
print(data.iloc[:, col_idx] # 获取该列的所有数据
# 当然如果只是想要该列的所有数据,可以直接用列名访问,如下:
print(data['列名'])
- 保存文件后,用excel打开中文乱码,或者把index一起保存入文件中
# 假设处理后的dataframe为new_data, 现在要保存new_data到csv文件中
new_data.to_csv('new_data.csv', encoding='gbk', index=None) # gbk编码,并导出后去除索引列
'''
其中,encoding用于指定编码格式,采用gbk编码中文后,就不会乱码了。
index: 指定为None,表示去除索引列。pandas中默认是保留索引列的。
'''