Python 之多元线性回归分析
数据预处理
使用pandas进行数据预处理
本文使用的数据处理工具为pandas,其提供了对excel文件,csv文件的高效处理,操作简单。
‘’’
def read_excel(path, save=False):
# 读取excel 文件
data = pd.read_excel(path, index_col=[])
# 读取csv 文件
data = pd.read_csv(path, index_col=[])
# 获取特定的columns
data = data[['c1', 'c2', 'c3', ...,'cn']]
# 将获取的文件保存为excel 格式,或者其他的格式csv等。
if save:
data.to_excel("d.xlsx", index=False)
# 将文件保存为csv格式的其他方法:
numpy.savetxt(path, data, delimiter=',', header="x1", fmt='%f', comments='')
# 丢弃选取的列的方法,drop
data = data.drop(columns = ['c1','c2','c3']
# 添加一列的方法 insert (index, new_data)
col_name = data.columns.tolist() # 获取原始的列