芒果冰麦-CSDN博客

1. 相关概念生成模型：在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。常见的基于生成模型算法有高斯混合模型和其他混合模型、隐马尔可...

2020-04-23 17:58:10 487

原创线性回归

数学原理回归分析回归分析是用来评估变量之间关系的统计过程。用来解释自变量X与因变量Y的关系。即当自变量X发生改变时，因变量Y会如何发生改变。线性回归回归分析的一种，评估的自变量X与因变量Y之间是一种线性关系。当只有一个自变量时，称为一元线性回归，当具有多个自变量时，称为多元线性回归。线性关系的理解：画出来的图像是直的。每个自变量的最高次项为1。我们从简单的一元线性回归开始。这里...

2020-04-21 20:14:44 2098

原创完整的机器学习_加州房价预测

机器学习的主要步骤将问题框架化并且关注重点。获取并探索数据以洞悉数据。准备数据以更好地将基础数据模式暴露给机器学习算法。探索多种不同的模型并列出最好的那些。微调模型并将它们组合成一个很好的解决方案。展示你的解决方案。启动，监督并维护你的系统。将问题框架化并关注重点数据集是基于 1990 年加州普查的数据,数据包含每个街区组的人口、收入中位数、房价中位数等指标。街区组是美国调...

2020-04-14 22:31:02 4910 1

原创 stacking模型融合

模型融合模型融合的方法简单加权融合:回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting)综合：排序融合(Rank averaging)，log融合stacking/blending:构建多层模型，并利用预测结果再拟合预测。boosting/bagging（在xgboost，Ad...

2020-04-04 20:16:00 9228 6

原创数据标准化与归一化

特征归一化、标准化的理解数据集如果标准化处理，对机器学习中的很多算法（包括梯度下降），会有很好的优化效果。如果数据未标准化（例如，数据集特征之间相差的数量级较大时），很多算法的表现性能不佳。首先理解方差、标准差和均方根误差的区别方差(variance)衡量随机变量或一组数据的离散（偏离）程度概率论中，方差是用来度量随机变量和其数学期望的（均值）之间的偏离程度。统计学中，各数据分别...

2020-04-03 21:20:02 4046

原创模型练习

内容介绍线性回归模型：线性回归对于特征的要求；处理长尾分布；理解线性回归模型；模型性能验证：评价函数与目标函数；交叉验证方法；留一验证方法；针对时间序列问题的验证；绘制学习率曲线；绘制验证曲线；嵌入式特征选择：Lasso回归；Ridge回归；决策树；模型对比：常用线性模型；常用非线性模型；模型调参：贪心调参方法；网格调参方法；...

2020-04-01 21:54:20 287

原创特征工程

特征工程特征工程的目的良好的数据要能够提取出良好的特征才能真正发挥效力。特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。筛选出显著特征、摒弃非显著特征，这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得...

2020-03-28 20:17:40 407

原创 EDA数据探索

EDA数据探索EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析，并对于数据进行一些图表或者文字总结...

2020-03-23 22:21:16 559

原创 pd.Categorical的应用

pd.Categorical的应用pd.Categotical可以有效编码重复的文本数据，可以极大提高数据处理的性能。pd.Categorical(values,categories=None,ordered=None,dtype=None,fastpath=False)参数：values:类似列表。分类变量的值，如果数据被赋予了类别，不在类别里的值会以NaN填充。categories...

2020-01-12 22:27:58 927

原创 python中if name == 'main'：的用法

python中if __name__ == '__main__'：的用法作为脚本直接运行作为模块被其它脚本导入运行原理作为脚本直接运行直接执行含if name == ‘main’:语句会将if语句中的代码执行。创建test.py文件，代码如下：print('A中的__name__值为{}'.format(__name__))if __name__=='__main__': prin...

2019-12-15 21:41:43 322

原创 Mysql实现排名及指定内容查询排名

1.目的：1.1.在mysql中根据相关要求对指定表结构进行排名；1.2.根据要求查询对象排名2.步骤：2.1.制作表结构Score(s_id,c_id,s_score) –学生编号,课程编号,分数#成绩表CREATE TABLE `Score`( `s_id` VARCHAR(20), `c_id` VARCHAR(20), `s_score` INT(3), PRI...

2019-06-30 12:44:25 2223

芒果冰麦

原创【量化交易】KDJ指标实现

原创贝叶斯算法