机器学习
文章平均质量分 90
liying_tt
这个作者很懒,什么都没留下…
展开
-
Day15-集成学习-机器学习-案例二:蒸汽量预测(DataWhale)
案例二、蒸汽量预测1. 基础信息数据信息:训练数据(train.txt)测试数据(test.txt)特征变量字段:V0-V37目标变量字段:target目的:利用训练数据训练出模型,预测测试数据的目标变量评价指标均方误差MSEScore=1n∑1n(yi−y∗)2Score = \frac{1}{n} \sum_1^n(y_i-y^*)^2Score=n11∑n(yi−y∗)22. 加载数据import numpy as npimport pandas as pd原创 2021-05-23 21:16:10 · 368 阅读 · 3 评论 -
Day14-集成学习-机器学习-案例一:幸福感预测(DataWhale)
案例一:幸福感预测需要使用包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等)、家庭变量(父母、配偶、子女、家庭资本)、社会态度(公平、信用、公共服务)等139个维度来预测其对幸福感的影响。1. 基本信息数据信息维度:139个数据集:8000组预测值:(1,2,3,4,5)。1最低,5最高评价指标使用均方误差MSE,即Score=1n∑1n(yi−y∗)2Score = \frac{1}{n}\sum_1^n(y_i - y^*)^2Score=n11∑n(yi−y原创 2021-05-18 21:24:41 · 1152 阅读 · 1 评论 -
Day13-集成学习-机器学习-Stacking(DataWhale)
一、Stacking集成算法1.1 原理下面,我们来实际应用下Stacking是如何集成算法的:(参考案例:https://www.cnblogs.com/Christina-Notebook/p/10063146.html)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wXgWEbRV-1620887337278)(./5.png)]首先将数据分为训练集和测试集。再将训练集分为5份:train1,……,train5选定基模型。并在训练集上对每个模型进行5折交叉验原创 2021-05-13 14:30:14 · 237 阅读 · 0 评论 -
Day12-集成学习-机器学习-Blending(DataWhale)
一、Blending算法1.1 原理(1) 将数据划分为训练集和测试集(test_set),其中训练集再划分为训练集(train_set)和验证集(val_set) (2) 创建第一层的多个模型,模型可以是同质的也可以是异质的(3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict和test_predict1 (4) 创建第二层的模型,使用val_predict作为训练集训练第二层的模型 (5) 使用第二层训练好的模型原创 2021-05-11 23:04:38 · 162 阅读 · 0 评论 -
Day11-集成学习-机器学习-XGBoost算法(DataWhale)
一、XGBoost算法1.1 原理XGBoost的本质是GBDT,但是在速度和效率上发挥极致,XGBoost是一个优化的分布式梯度增强库,在GradientBoosting框架下实现机器学习算法XGBoost提供并行树提升(GBDT,GBM),可以快速准确地解决数据科学问题XGBoost以CART决策树为子模型,通过Gradient Tree Boosting实现多颗CART树的集成学习,得到最终模型。模型构建:数据为:D={(xi,yi)}(∣D∣=n,xi∈Rm,yi∈R)D=\{(x_原创 2021-04-26 23:01:24 · 293 阅读 · 1 评论 -
Day10-集成学习-机器学习-梯度提升决策树GBDT(DataWhale)
一、前向分步算法1.1 加法模型在Adaboost模型中,将每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和f(x)=∑m=1Mβmb(x;γm)f(x) = \sum_{m=1}^{M}\beta_mb(x;\gamma_m)f(x)=∑m=1Mβmb(x;γm),b(x;γm)b(x;\gamma_m)b(x;γm)为基本分类器,γm\gamma_mγm是基本分类器的参数,βm\beta_mβm是基本分类器的权重给定训练数据以及损失函数L(y,f(x))L(y,f(x))原创 2021-04-23 18:16:24 · 294 阅读 · 0 评论 -
Day09-集成学习-机器学习-Adaboost算法(DataWhale)
三、Boosting方法Boosting方法是使用同一组数据集进行反复的学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的学习模型。Boosting方法是通过不断减小偏差的形式,而Bagging是通过降低方差的方法。大部分Boosting方法是通过改变训练数据集的概率分布(训练数据不同样本的权值),针对不同概率分布的数据调用弱分算法学习一系列的弱分类器Boosting解决两个问题:(1)每一轮学习如何改变数据的概率分布;(2)如何将各个弱分类器组合起来。3.1 Adaboos原创 2021-04-19 21:21:46 · 179 阅读 · 0 评论 -
Day08-集成学习-机器学习-Bagging(DataWhale)
二、BaggingBagging不仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型服从一定的假设。通过不同的采样增加模型的差异性2.1 原理核心:自助采样bootstrap,有放回的从数据集中进行采样。基于每个样本训练一个基学习器,再将所有的基学习器结合回归问题预测:通过预测取平均值分类问题预测:通过预测取多数票预测Bagging是一种降低方差的技术,在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显实际应用中,加入列采样的Bagging技术对高维小样本更显著原创 2021-04-14 14:27:38 · 185 阅读 · 0 评论 -
Day07-集成学习-机器学习-投票法(DataWhale)
一、投票法1.1 介绍原理遵循少数服从多数原则,通过多个模型的集成降低方差。理想情况,投票法的预测效果优于任何一个基模型的预测结果分类回归投票法:预测结果是所有模型预测结果的平均值分类投票法:预测结果是所有模型中出现最多的预测结果硬投票:所有投票结果出现最多的类软投票:所有投票结果中概率和平均最大的类原则想要投票法产生较好的结果,需要满足:基模型之间的效果不能差别很大。当某个模型相对于其他基模型效果差时,该模型可能是噪声基模型之间应该有较小的同质性。例如在基模型预测效果近原创 2021-04-12 13:28:28 · 1925 阅读 · 0 评论 -
Day06-集成学习-机器学习-评估模型的性能并调参(DataWhale)
三、评估模型的性能并调参模型评估、调参的流程:用管道简化工作流使用k折交叉验证评估模型性能使用学习和验证曲线调试算法通过网格搜索进行超参数调优比较不同的性能评估指标**出处:**https://zhuanlan.zhihu.com/p/1400407051. 用管道简化工作流对数据进行标准化,PCA降维,最后拟合模型和预测import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#读取数据data转载 2021-03-29 22:19:02 · 299 阅读 · 0 评论 -
Day05-集成学习-机器学习-分类模型(DataWhale)
二、sklearn构建分类项目2.1 收集数据集并选择合适的特征使用IRIS鸢尾花数据集from sklearn import datasetsimport pandas as pdiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X, columns=feature)data['target'] = ydata.head(2)原创 2021-03-28 01:59:50 · 283 阅读 · 1 评论 -
Day04-集成学习-机器学习-回归-调参(DataWhale)
5. 对模型超参数进行调优(调参)岭回归J(w)=∑i=1N(yi−w0−∑j=1pwjxij)2+λ∑j=1pwj2(λ≥0)w^=(XTX+λI)−1XTYJ(w) = \sum_{i=1}^{N}(y_i-w_0-\sum_{j=1}^{p}w_jx_{ij})^2+\lambda \sum_{j=1}^{p}w^2_j (\lambda \ge 0) \\\hat{w} = (X^TX+\lambda I)^{-1}X^TYJ(w)=i=1∑N(yi−w0−j=1∑pwjxij原创 2021-03-24 17:05:15 · 353 阅读 · 0 评论 -
Day03-集成学习-机器学习-回归-优化基础模型(DataWhale)
4. 优化基础模型训练数据集:去估计模型参数的数据集测试数据集:未出现在训练数据集的未知数据集估计参数原则:使得损失函数在训练集达到最小值回归模型的目的:使得模型在测试数据中表现优异解决估计参数的原则与模型最优的矛盾4.1 均方误差MSE=1N∑i=1N(yi−f^(xi))2\text{MSE} = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{f}(x_i))^2MSE=N1i=1∑N(yi−f^(xi))2f^(xi)\hat{f}(x_i原创 2021-03-22 22:29:19 · 271 阅读 · 0 评论 -
Day02-集成学习-机器学习-sklearn构建回归项目(DataWhale)
二、sklearn构建回归项目1. 收集数据集并选择合适的特征import pandas as pdimport numpy as npfrom sklearn import datasetsboston = datasets.load_boston()X = boston.data #使用大写X,X包含多个小xy = boston.targetfeatures = boston.feature_namesboston_data = pd.DataFrame(X, columns=fea原创 2021-03-18 23:13:15 · 331 阅读 · 0 评论 -
Day01-集成学习-机器学习基础(DataWhale)
一、机器学习基础知识点:机器学习分监督学习和非监督学习。监督学习:有因变量、有特征向量、目的:预测非监督学习:无因变量、有特征向量,目的:寻找数据中的结构监督学习分回归和分类回归:因变量连续分类:因变量离散常用的包#引入科学计算包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline #直接在你的python console里面生成图像plt.style.u原创 2021-03-15 21:31:15 · 188 阅读 · 0 评论