一 数据获取
1.1 读取文件
import pandas as pd
1.1.1 csv
data = pd.read_csv('/路径')
函数 | 参数列表 | |
---|
.iloc | [ : , : ] | 分割行列 |
.sample | ( n , random_state ) | 随机采样 |
.drop | ( labels=[‘列名’] , axis=1/0 ) | 去除行/列 |
1.1.1 txt
data = pd.read_table('1.txt',header=None, encoding='gb2312', sep=' ')
1.2 自定数据
pd.DataFrame({'列名A':[1,2],'列名B':[4,3]},index = [1,2])
二 数据查看
2.1
函数名 | 实现功能 |
---|
.info() | 基本信息 |
.head(n) | 查看前 n 条 |
.tail(n) | 查看后 n 条 |
.shape | 形状 |
.values | 以数组形式获取内容 |
三 数据处理
3.1 归一化
3.1.1 整体列归一化
占位
3.1.2 列归一化
from sklearn.preprocessing import StandardScaler
data['列名'] = StandardScaler().fit_transform(data['列名'].values.reshape(-1,1))
3.2 筛选
data_normal = data[data['列名'] == '值0']
data_normal = data[data['列名'] == '值1']
四 保存
4.1 数据库保存
4.2 文件保存
4.2.1 保存成csv
data.to_csv("2.csv")