![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
浅行learning
一个有梦想的代码狗。
展开
-
基于决策树(Decision Tree)的bagging算法:随机森林(Random Forest)(包括具体代码)
基于bagging 的算法: 重点先跑模型: 数据: http://sofasofa.io/competition.php?id=1 代码: 1.随机森林 什么是随机森林? 随机森林被认为是所有数据科学问题的灵丹妙药 。有趣的是,当你想不出任何算法(无论情况如何)时,使用随机森林! 随机森林是一种多功能机器学习方法,能够执行回归和分类任务。它还采用降维方法,处理缺失值,异常值和数据探索的其他基本步...原创 2018-12-12 21:10:48 · 2976 阅读 · 1 评论 -
机器学习算法—线性回归
2.线性回归(regression) 线性回归(Linear Regression)基于连续变量(s)的实数值估计(房屋价格,通话数量,总销售额等)。在这里,我们通过拟合一条最佳直线来建立自变量(x)和因变量(y)之间的关系。这个最佳拟合线称为回归线,用线性方程 y= a * x+b 表示。 线性回归主要有两类:简单线性回归和多元线性回归。简单线性回归的特点是只有一个自变量。多元线性回归的特征是有...原创 2018-12-19 18:30:27 · 261 阅读 · 0 评论 -
特征工程之数据预处理中的缺失值处理(使用pandas和sklearn)
原则: 1.缺失数据的比例 2.数据的重要性 方法: 如果缺失的数据不重要或者缺失的很多可以直接删除。 删除: 1.删除所有包含缺失数据的行 data=data.dropna(axis=0) 2.删除所有包含缺失数据的列 data=data.dropna(axis=1) 3.删除缺失的某个数据列如:删除a,b列 data = data.drop(['a', 'b'], axis=1) 如果缺...原创 2019-05-27 14:04:58 · 972 阅读 · 0 评论