MachineLearning
文章平均质量分 78
G____G
这个作者很懒,什么都没留下…
展开
-
ML - 特征工程
1.数据预处理1.1结构化数据1.1.1缺失值处理1.1.1.1直接删除如果数据不重要且缺失值不多1.1.1.2补齐如果数据重要且缺失值不多,想办法搞来1.1.1.3统计值填充统计值一般泛指平均值、中位数、众数、最大值、最小值等,具体使用哪一种统计值要根据具体问题具体分析。比如,填工龄,对年龄分箱求平均值填充1.1.1.4不处理缺失值自成一类1.1.1.5向前向后填充1.1.1.6插值法填充1.多项式插值2.lagrange插值1.1.1.7预测值填充1.1.2离群点处理原创 2020-05-25 22:10:45 · 440 阅读 · 1 评论 -
ML- 生成式模型和判别式模型
定义监督学习方法可以分为两类,生成方法(generative approach)和判别方法(discriminative approach),所对应学习到的模型被称为生成式模型(generative model)和判别式模型(discriminative model)生成式模型这种模型表示了给定输入X产生输出Y的生成关系。因为有监督学习可以视作一个条件概率分布,说白了就是求在知道特征X的...原创 2020-03-18 20:14:21 · 265 阅读 · 0 评论 -
ML - Ensemble Learning
集成学习团结就是力量。集成学习可以将多个学习器进行结合,达到更好的泛化性能。多个学习器可以为同一类学习器,比如都是决策树。也可以包含不同类型的个体学习器,比如同时包含决策树和神经网络。分类一类是:个体学习器间存在强依赖关系、必须串行生成的序列化方法,代表:Boosting另一类:个体学习器间不存在强依赖关系,可以同时生成的并行化方法,代表:Bagging,Random ForestB...原创 2020-03-11 16:44:38 · 373 阅读 · 0 评论 -
ML - Apriori
Association Rule关联规则:项目集之间的蕴含表达式,形如X -> Y,其中X,Y是不相交项集。关联规则的强度可以用它的支持度和置信度来度量项目集Itemset: 一系列的items,对项集X的支持度计数表示为,支持度Support: 事务中包含项目集的频率**置信度Confidence:**衡量在事务中的Y项目集中X出现的频率Association rule ...原创 2020-03-11 14:40:54 · 208 阅读 · 0 评论 -
ML - DBSCAN
密度聚类:desity-based clustering此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本的密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。DBSCAN是著名的密度聚类算法。它常常用于异常检测,他的注意力放在离群点上,所以,当遇到无监督的检测任务时,他是首选。一些概念DBSCAN: 基于一组邻域(nei...原创 2020-03-11 11:53:21 · 357 阅读 · 0 评论 -
ML - Decision Tree
决策树是一类常见的机器学习方法,决策过程的最终结论对应了我们希望的判定结果。而决策树学习的关键是选择最优化分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。为了度量纯度,我们引入了几个概念,先从信息熵讲起信息熵熵是指问题内部混乱程度,熵值越高,混乱程度越高,纯度越小。信息熵:是度量样本集合纯度最常用的一种指标,假定当前样...原创 2020-03-11 10:52:02 · 368 阅读 · 0 评论 -
ML - 解决欠拟合和过拟合
模型欠拟合:在训练集以及测试集上同时具有较高的误差,此时模型的偏差较大;模型过拟合:在训练集上具有较低的误差,在测试集上具有较高的误差,此时模型的方差较大。如何解决欠拟合:添加其他特征项。组合、泛化、相关性、上下文特征、平台特征等特征是特征添加的重要手段,有时候特征项不够会导致模型欠拟合。添加多项式特征。例如将线性模型添加二次项或三次项使模型泛化能力更强。例如,FM(Factorizat...原创 2020-03-11 09:25:07 · 344 阅读 · 0 评论 -
ML- 范数与正则化惩罚
范数L1范数L1范数是我们经常见到的一种范数,它的定义如下:表示向量x中非零元素的绝对值之和。L1范数有很多的名字,例如我们熟悉的曼哈顿距离、最小绝对误差等。使用L1范数可以度量两个向量间的差异,如绝对误差和(Sum of Absolute Difference)由于L1范数的天然性质,对L1优化的解是一个稀疏解,因此L1范数也被叫做稀疏规则算子。通过L1可以实现特征的稀疏,去掉一些没...原创 2020-03-10 22:06:33 · 485 阅读 · 0 评论 -
ML - 数据标准化与模型评估
数据特征决定模型结果的上限,而模型的优化不过是在逼近这个上限如果某一列数值特别大,模型可能会不精确,比如误认为这一列数据特别重要。特征标准化特征标准化就是希望数据在处理后,每个特征的数值在同一范围内浮动常用标准化方法,原始数据-原始数据均值,再除以原始数据标准差。首先,减去均值,数据就以原点为中心对称了。将与均值的差与标准差做比,就是让数据压缩到较小的空间中。模型评估交叉验证把...原创 2020-03-10 21:51:47 · 603 阅读 · 0 评论 -
ML - 数据样本分布不均:过采样、欠采样、阈值移动
逻辑回归做二分类任务有个基本假设,那就是不同类别额训练样本数目相当。如果差别很大,训练出来的学习器将没有价值。毕竟只要输出占比多的结果,正确率就不会太低。再缩放用m+表示正例数目,m-表示负例数目,则观测几率是m+/m-在“训练集是真实样本总体的无偏采样”的前提下,观测j几率可以代表真实几率所以进行rescaling通常采用的是,直接基于原始训练集进行学习,在预测前,把该式嵌入到决策过...原创 2020-03-10 21:08:27 · 1643 阅读 · 0 评论 -
ML - LR
引入线性回归可以得到预测值,但这无法用于分类,如果能把预测到的结果转为概率正则可判断。那如何转为概率呢?Sigmoid函数这里自变量可以为任意实数,而输出可以以0.5为阈值进行正负例类别划分。你也可以以别的值为阈值,记住要从实际业务的角度出发来选择模型对数几率回归将线性回归的式子带入,就可以得到logistic function(亦译作逻辑回归)的假设函数假如样本数据的标签y有两...原创 2020-03-10 20:48:50 · 237 阅读 · 0 评论 -
ML - 时间序列ARIMA
平稳性平稳性要求经由样本时间序列所拟合的曲线,在未来的一段期间内仍能顺着现有的形态“惯性”地 延续下去。平稳性要求序列的均值和方差不发生明显的变化。严平稳分布不随时间的改变而改变,例如,白噪声(标准正太分布期望为0,方差为1)弱平稳弱平稳是通常见到的,它期望和相关系数的依赖性不发生改变。因为未来时刻的值需要过去的信息。差分如果时间序列不平稳,可以通过差分的方式使其变得的平稳。差分就...原创 2020-03-10 15:25:48 · 846 阅读 · 0 评论 -
ML - SVM
SVM提出问题分类学习最基本的想法就是基于训练集D在样本空间找到一个超平面,将不同类别的样本分开。但是划分超平面的可能性有很多,该如何寻找?划分超平面的线性方程描述:wTx+b=0w^Tx + b = 0wTx+b=0在二维空间,这个discriminant是line,3-D: plane, m-D: hyperplane.我们要找的就是Maximum margin,这个最大间隔可以这...原创 2020-03-03 17:39:26 · 389 阅读 · 1 评论