分类回归算法及实战
实战+算法
语译分西
这个作者很懒,什么都没留下…
展开
-
算法(K近邻)
目录一、KNN算法原理二、代码应用一、KNN算法原理近朱者赤近墨者黑计算待分类样本与其他训练样本的距离统计距离最近的k个邻居对于k个最近的邻居,他们属于那个分类最多,待分类样本就属于哪一类(回归就取平均值)K的值要通过交叉验证和网格搜索进行确定如何计算待分类样本与训练样本之间的距离?欧氏距离计算两个样本间,n个属性(维度)之间的差值的平方例如二维空间,计算(2,1)到...原创 2019-10-06 19:58:28 · 152 阅读 · 0 评论 -
算法(XGBoost)
目录一、Get Started with XGBoost二、XGBoost算法介绍2.1 Objective Function:2.1.1 Training Loss Function2.1.2 Regularization Term2.2 Decision tree ensemble model2.3 Tree Boosting2.4 Model Complexity(优化正则化项)2.5 Th...翻译 2019-08-31 14:36:53 · 493 阅读 · 0 评论 -
1.实操(Titanic)
目录一、Data Preview1.1 Data Structure1.2 Data head()1.3 Null Detection1.4 Check 'Survived' distribution二、Data preprocessing2.1 Concatenate Train and Test Data Together2.2 Drop Useless Features2.3 Deal wi...原创 2019-08-27 14:33:49 · 639 阅读 · 0 评论 -
4.实操(Credit Card Fraud Detection)
目录一、数据挖掘流程二、Data Preview2.1 data. shape2.2 data. head()2.3 data.describe()2.4 check NaN2.5 Class Distribution2.6 correlation heatmap三、问题+方案3.1 发现的问题3.2 方案四、Data Preprocessing4.1 Standardization一、数据挖掘...原创 2019-09-04 16:40:17 · 2662 阅读 · 0 评论 -
5.实操(美国两党预测)
目录一、数据预览1.Data.head()2. Class分布预览1.3 其他1.4 问题二、数据预处理2.1 将class值从REP、DEM变成0,12.2 one-hot变换2.3 测试集、训练集分离三、模型构建3.1 随机森林一、数据预览1.Data.head()2. Class分布预览1.3 其他无缺失值class 名称是 'cand_pty_affiliation '...原创 2019-09-06 09:16:21 · 1042 阅读 · 1 评论