![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析与挖掘
文章平均质量分 74
深入浅出的介绍数据挖掘建模过程:数据探索、数据处理、特征工程、模型训练、模型验证、特征优化、模型融合等
Mrs.King_UP
一个程序媛自我成长的记录者!
展开
-
数据分析与挖掘3——特征工程
数据和特征决定了机器学习得上限,而模型和算法只是逼近这个上线 1.数据预处理 数据采集 数据清洗:去除脏数据 数据采样:数据存在不平衡得情况下使用,有上采样和下采样之分;正样本>负样本,且数据量大,采用下采样;正样本>负样本,数据量不大,采用上采样;或者修改损失函数设置样本权重 2. 特征处理 标准化:使得经过处理后的数据符合标准的正态分布。 #标准化 from sklearn.preprocessing import StandardScaler ss=StandardScaler()原创 2021-09-21 15:52:20 · 225 阅读 · 0 评论 -
数据分析与挖掘2——数据预处理
1.缺失值处理 查看缺失值 train_data.info()#可以查看特征的确实情况 import missingno as msno msno.matrix(train_data,labels=True)#可以一目了然的看到每个变量的缺失情况 msno.bar(train_data)#条形图显示缺失值情况 删除:适用于数据量较大(记录较多)且缺失比较较小的情形,去掉后对总体影响不大。 缺失值较少,删除包含缺失值的行,train_data.dropna() 删除缺失值大于80%的列,tr原创 2021-09-17 16:45:46 · 503 阅读 · 0 评论 -
数据分析与挖掘1——数据探索
1.变量识别 确定输入变量(特征)、输出变量(target) 确定数据类型——数值型数据、字符型数据 连续型变量&类别型变量 2.变量分析 单变量分析:箱型图和直方图,统计连续变量的中心分布趋势和变量分布;出现次数和占比衡量类别型变量 箱型图 import seaborn as sns plt.subplot(7,8,0)#7行8列的子图,当前子图为第0号 sns.boxplot(train_data['sex'],orient='v',width=0.5)#orient竖直方向的箱型图;w原创 2021-09-17 16:30:43 · 248 阅读 · 1 评论