python学习笔记(关于CSV文件的数据清洗）

最新推荐文章于 2024-06-20 12:17:33 发布

泰勒叫我去学习

最新推荐文章于 2024-06-20 12:17:33 发布

阅读量6.2k

点赞数 6

文章标签： python 数据挖掘开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43350424/article/details/122568569

版权

1、读取CSV文件

data = pd.read_csv(r'.\')

2、看数据大致情况

data.info()

3、当表很大的时候想看表长什么样子

data.head(n)#显示前n行

4、删除表的若干列

data.trop(['aaa','bbb','ccc'],inplace = True,axis = 1)#删除表头为aaa,bbb,ccc的列，inplace = True并用后来的表去覆盖前面的表

5、用均值填补缺失值

data['age'] = data['age'].fillna(data['age'].mean())

6、删掉有缺失值的行

data = data.drpona()#默认axis = 0

7、看一列表头里面到底有多少类别

data['ddd'].unique()

8、讲上面的类别[‘s’,‘q’,‘k’]转化为[0,1,2]供分类

labels = data['Embarked'].unique().tolist()
data['Embarked'] = data['Embarked'].apply(lambda x: labels.index(x))

9、把性别转换为0，1

data['Sex'] = (data['Sex'] == 'male').astype('int')

10、取出除了某一列外的数据

x = data.iloc[:,data.columns != 'kkk']

11、乱序的索引按顺序排列

xtrain.index = range(xtrain.shape[0])

12、训练并交叉验证

clf = DecisionTreeClassifier(random_state = 25)
score = cross_val_score(clf,x,y,cv=10).mean()

13、网格搜索

import numpy as np
gini_thresholds = np.linspace(0,0.5,20)
parameters = {'splitter':('best','random')
             ,'criterion':("gini","entropy")
             ,"max_depth":[*range(1,10)]
             ,'min_samples_leaf':[*range(1,50,5)]
             ,'min_impurity_decrease':[*np.linspace(0,0.5,20)]
             }
clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(Xtrain,Ytrain)
GS.best_params_
GS.best_score_

泰勒叫我去学习

关注

6
点赞
踩
68

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

泰勒叫我去学习 CSDN认证博客专家 CSDN认证企业博客

码龄6年

4: 原创

120万+: 周排名

100万+: 总排名

1万+: 访问

: 等级

86: 积分

5: 粉丝

33: 获赞

12: 评论

108: 收藏

私信

关注

热门文章

最新评论

python学习笔记(关于CSV文件的数据清洗）
qq_44716633: 那个是dropna删除空白行
学批量归一化时，关于x.mean(dim=0,keepdim=True)的一些问题
泰勒叫我去学习: 嗯，这个理解不错
学批量归一化时，关于x.mean(dim=0,keepdim=True)的一些问题
xlntj: 嗯嗯，也可以这样，x.shape为（2，3，4），当dim=0时，去掉下标为0的也就是2，因此最终的矩阵就是3行四列，其他的以此类推。 [code=python] meann=a1.mean(dim=0) print(meann) print(meann.shape) [/code] 输出：tensor([[ 7., 8., 9., 10.], [11., 12., 13., 14.], [15., 16., 17., 18.]]) torch.Size([3, 4])
学批量归一化时，关于x.mean(dim=0,keepdim=True)的一些问题
泰勒叫我去学习: emm,说实话太久了。有点忘记当初为啥会这样说的，不好意思哈。不过你按自己的理解就好，这里的dim=0 or1,2只是让数组在不同的维度求均值。以此例子数组为例，dim=0时，是里面两个二维数组对应元素的mean,dim=1时，是里面两个数组各自同一列中每行对应元素来求mean，并再依次按列进行下去。dim=2时，是里面两个数组同一行中各列的均值，并再依次按行进行。这样说其实也很绕，你自己打印下，有自己的理解就好
学批量归一化时，关于x.mean(dim=0,keepdim=True)的一些问题
xlntj: 引用「以列为单位，共三列，故这里有3行」请问这个“共三列”什么意思啊？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。