pandas使用技巧总结(1)

pandas使用技巧总结(1)

记录工作中使用过的一些pandas技巧

导入必要的库
并设置路径

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')
file_path = './well_data.xlsx'
well_data = pd.read_excel(file_path)
pd.set_option('display.float_format',lambda x:'%.5f'%x)
well_data.head(2)

部分数据
对得到数据预处理

cs = well_data['压裂段'].str.split('-',n=2,expand=True)
#压裂段形式:井号+层号+段号#
#.str.split()对应list.split()#
#'':以什么分割,默认空格,n:分成几段,默认-1(all),expand:默认false,#
#即分割后形成一个series,当为True时,根据分隔的列数形成dataframe#
cols = ['井号','层号','段号']
cs.columns=cols

在这里插入图片描述在这里插入图片描述

    X.insert(len(X.columns)-1,one_feature_to_compare, X.pop(one_feature_to_compare))
	#将pandas某一列移到最后一列去

归一化
4种归一化方式:
1.Rescaling (min-max normalization) 有时简称normalization(缩放到0,1之间但没有改变数据分布)
x ′ = x − min ⁡ ( x ) max ⁡ ( x ) − min ⁡ ( x ) x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)} x=max(x)min(x)xmin(x)
2.Mean normalization
x ′ = x − mean ⁡ ( x ) x − min ⁡ ( x ) x^{\prime}=\frac{x-\operatorname{mean}(x)}{x-\min(x)} x=xmin(x)xmean(x)
3.Standardization(Z-score normalization)(缩放到0附近但没有改变数据分布)
x ′ = x − mean ⁡ ( x ) σ x^{\prime}=\frac{x-\operatorname{mean}(x)}{\sigma} x=σxmean(x)
4.Scaling to unit length
x ′ = x ∥ x ∥ x^{\prime}=\frac{x}{\|x\|} x=xx
由于数据集各组数据间差异较大,需对数据进行归一化处理

well_data = (well_data -well_data.min()) / (well_data.max() - well_data.min())
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值