m0_48405271-CSDN博客

原创集成学习案例

集成学习案例——蒸汽量预测数据处理1.删除训练集数据分布和测试集数据分布不均的特征2.查看特征相关性，将相关性小的特征删除3.数据归一化特征工程1.Box-Cox变换box-cox变换的目标有两个：一个是变换后，可以一定程度上减小不可观测的误差和预测变量的相关性。主要操作是对因变量转换，使得变换后的因变量于回归自变量具有线性相依关系，误差也服从正态分布，误差各分量是等方差且相互独立。第二个是用这个变换来使得因变量获得一些性质，比如在时间序列分析中的平稳性，或者使得因变量分布为正态分布。2.对

2021-07-31 23:42:49 404

原创集成学习方法三

StackingStacking集成算法可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果(元特征)提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果blending集成学习方法Blending集成学习方式：(1) 将数据划分为训练集和测试集(test_set)，其中训练集需要再次划分为训练集(train_set)和验证集(val_set)；(2) 创建第一层的多个模型，这些模型可以是同质的也可以是异质的；(3) 使用train_set

2021-07-28 21:18:43 130

原创集成学习方法二

bagging：对不同的子集使用同一种基本模型进行拟合，然后投票得出最终的预测降低方差boosting：使用同一组数据集进行反复学习，得到一系列简单模型，然后组合这些模型构成一个预测性能十分强大的机器学习模型减小偏差boosting基本思路弱学习：识别错误率小于1/2（即准确率仅比随机猜测略高的学习算法）强学习：识别准确率很高并能在多项式时间内完成的学习算法在PAC 学习的框架下，强可学习和弱可学习是等价的从弱学习算法出发，反复学习，得到一系列弱分类器(又.

2021-07-25 23:35:22 170 2

原创集成学习方法

投票法基本思路回归模型：投票法最终的预测结果是多个其他回归模型预测结果的平均值。分类模型：硬投票法的预测结果是多个模型预测结果中出现次数最多的类别，软投票对各类预测结果的概率进行求和，最终选取概率之和最大的类标签。原理分析在理想情况下，投票法的预测效果应当优于任何一个基模型的预测效果。基模型要满足的条件：基模型之间的效果不能差别过大。当某个基模型相对于其他基模型效果过差时，该模型很可能成为噪声。基模型之间应该有较小的同质性。例如在基模型预测效果近似的情况下，基于树模型与线性模型的投票，往往

2021-07-22 23:43:26 157 2

原创构建完整的分类项目

构建完整的分类项目收集数据集并选择合适的特征选择度量模型性能的指标选择具体的模型进行训练评估模型性能并调参基于概率的分类模型线性判别分析基于贝叶斯公式通过贝叶斯定理计算贝叶斯公式的分子，比较分子最大的那个类别就是最终类别。{δk(x)=ln(gk(x))=lnπk+μσ2x−μ22σ2μ^k=1nk∑i:yi=kxiσ^2=1n−K∑k=1K∑i:yi=k(xi−μ^k)2{\begin{cases}\delta_k(x) = ln(g_k(x))=ln\pi_k+\dfrac{\m

2021-07-20 23:24:02 121 1

原创偏差与方差理论

均方误差MSE=1N∑i=1N(yi−f^(xi))2MSE = \frac{1}{N}\sum\limits_{i=1}^{N}(y_i -\hat{ f}(x_i))^2MSE=N1i=1∑N(yi−f^(xi))2优化基础模型一般在训练误差达到最小时，测试均方误差一般很大偏差与方差的均衡E(y0−f^(x0))2=Var⁡(f^(x0))+[Bias⁡(f^(x0))]2+Var⁡(ε)E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)

2021-07-18 20:59:39 595

原创机器学习基础

机器学习模型线性回归的推广非线性回归——表达数据中的非线性关系多项式回归yi=w0+w1xi+w2xi2+...+wdxid+ϵy_i = w_0 + w_1x_i + w_2x_i^2 + ...+w_dx_i^d + \epsilonyi=w0+w1xi+w2xi2+...+wdxid+ϵ多项式的阶数d不能取过大，一般不大于3或者4广义可加模型(GAM)yi=w0+∑j=1pfj(xij)+ϵiy_i = w_0 + \sum\limits_{j=1}^{

2021-07-16 00:35:15 101

原创集成学习数学基础

导数常用的初等函数导数：(1)(C)′=0, (2)(x′′)′=μx′′−1,(3)(sin⁡x)′=cos⁡x, (4)(cos⁡x)′=−sin⁡x,(5)(tan⁡x)′=sec⁡2x, (6)(cot⁡x)′=−csc⁡2x,(7)(sec⁡x)′=sec⁡xtan⁡x, (8)(csc⁡x)′=−csc⁡xcot⁡x,(9)(ax)′=axln⁡a, (10)(ex)′=ex,(11)(log⁡ax)′=1xln⁡a, (12)(l

2021-07-13 22:52:23 204

原创 mysql

进入：mysql -u root -p然后输入密码查询数据库服务器中所有的数据库：show databases;使用某一个数据库进行操作：use 一个数据库名字;查询数据库钟的内容：select * from 表名；退出数据库服务器：exit;创建数据库：create database 数据库名;查看数据库中有没有表:show tables;创建一个数据表：//创建user表，name 和password 两个字段mysql> CREATE TABLE user

2020-12-23 12:01:37 65

原创 re正则表达式

原子表：[xyz]abc，其中x,y,z是平行关系，即xabc,yabc,zabc都可以是匹配结果[^]表示除了中括号内的元素以外都能匹配任意匹配元字符：.边界限制元字符：^,$限定符：*，？，+，{n}，{n,}，{n,m}模式选择符：|,a|b时a和b都可以作为匹配模式模式单元符：将一些原子组合成大原子使用使用“re.符号”的方式作为参数加入到函数中贪婪模式：尽可能多的匹配，". "懒惰模式：尽可能少的匹配，且为就近匹配，".?"常见函数：1.re.match()函数：从.

2020-12-19 19:59:38 265

m0_48405271的博客