Python中的经常用,但经常忘记的命令函数(1)

引言

最近又开始工作了,又要重新把忘记的Pyhon的诸多命令函数捡起来了,因为自己经常忘记这些命令,所以就在这里写下来了。
也方便大家一起讨论,相互补充借鉴吧。

pandas 文件的读取

*行名和列名的选择

import pandas as pd
#把文件第一行和第一列作为行名和列名
df = pd.read_csv(datafile, head=0, index_col=0)#0表示第一个的行列意思

自定义的行列名太麻烦了,这里就不写了…

sklearn 中的归一化处理

*因为sklearn中的许多模型都是不接受负值的,所以我比较喜欢用MinMaxScaler()归一化处理(绝不是因为懒哦…)
具体的原理和其他的形式可在文档里找到.(https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing )

from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler() #归一化
X_data = min_max_scaler.fit_transform(np.array(df.iloc[:,:-1]))

更改为当前的工作目录

*因为调用什么的,要写绝对路径所以很烦人,于是把所有相关文件都放到同一个文件夹里就可以少打几个字了。。。

import os
os.chdir("目标目录")   #修改当前工作目录
os.getcwd()    #获取当前工作目录
#二合一模式
os.chdir(os.getcwd())

string复活函数eval()

*以前不怎么用pandas读文件的时候经常用的一个函数,她可以把已经变成字符串的表达式复活,例如:

a = '1+1'
print(a)
print(eval(a))

*怎么样 感受到她的nb了吧

方差分析ANOVA

*这个东西感觉好厉害的样子,调用了好多包(R好像里面更好做点)
X1 X2 y
x1 x2 21
x1 x4 15
x2 x1 12
x2 x5 23
x3 x4 6
x3 x5 18
x4 x1 11
x4 x2 12
x5 x1 17
x5 x2 9
(数据是瞎编的,但就是这样一个格式)

import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
###########       单因素方差分析
dat = pd.read_csv("anova.txt")
model = ols('y ~ X1',dat).fit()#最小二乘法构建线性回归模型
anovat = anova_lm(model)
print(anovat)

###########       二因素方差分析
formula = 'y~ X1 + X2'
anova_results = anova_lm(ols(formula,dat).fit())
print(anova_results)

#若X1的p-value<0.05,在对X1内的因素进行分析
print(pairwise_tukeyhsd(df['y'], df['X1']))

若p-value<0.05,说明有显著性差异
若reject=True,说明这两因素有显著性差异
ANOVA 参考
https://blog.csdn.net/yijiaobani/article/details/78113293
https://blog.csdn.net/qq_38214903/article/details/82938612

这一次就先写这么多吧,但是写这个真的好麻烦啊,给默默奉献的大神们默默点个赞!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值