![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 91
有dian意思
这个作者很懒,什么都没留下…
展开
-
2020DCIC智能算法赛-智慧海洋建设(渔船分类)
最近忙于找工作,之前做的项目还没有总结过,这里就先简单的总结一下项目要求通过分析渔船北斗设备位置数据,具体判断出是拖网作业、围网作业还是流刺网作业。即:“轨迹(序列数据)+多分类”的任务,评估指标选用的是F1值。本项目的关键点就是对原始数据的特征工程:baseline(本人的baseline代码找不到了,所以这里借用已经公开的方法,方法基本一样,只不过本人的baseline引入了更多的统计量)import os, sys, globimport numpy as npimport pandas原创 2020-09-17 15:08:22 · 3006 阅读 · 0 评论 -
TF-IDF算法
最近在肝腾讯广告大赛2020,特征提取部分陷入了窘境,突然想起了tf-idf,就来复习一波。TF-IDF的概念TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。TF策略我在之前的高频词提取文章中进行过使用,TF用来表示词频,也就是某个词在文章中出现的总次数,也就是:TF=某个词在文章中出现的总次数但是考虑到每篇文章的长短是不同的,所以我们可以把上述内容进行一个标准化:TF=某个词在文原创 2020-05-16 10:22:30 · 298 阅读 · 0 评论 -
特征选择方法
常采用特征选择方法。常见的六种特征选择方法:1)DF(Document Frequency) 文档频率DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性2)MI(Mutual Information) 互信息法互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。相对的词频很高的词,得分就会变低,如果这...原创 2020-03-10 21:51:30 · 197 阅读 · 0 评论 -
EM算法(期望最大)
EM算法用来解决含有隐变量混合模型的参数估计问题原创 2020-03-16 14:52:09 · 146 阅读 · 1 评论 -
模型评估
评估指标有二分类的混淆矩阵如下TP、TN、FP、FN 中的第二个字母(列标首字母)是机器学习算法或模型预测的结果(正例:P、反例:N)TP、TN、FP、FN 中的第一个字母(行标首字母)是根据真实情况判断预测结果是否正确(正确:T、错误:F)即:正确地预测为正例:TP正确地预测为反例:TN错误地预测为正例:FP错误地预测为反例:FN准确率准确率是指分类正确的样本占总样本个...原创 2020-03-16 11:22:36 · 281 阅读 · 0 评论 -
缓解过拟合(overfitting)的方法
为了得到一致假设而使假设变得过度复杂称为过拟合(overfitting),过拟合表现在训练好的模型在训练集上效果很好,但是在测试集上效果差。也就是说模型的泛化能力弱。在很多问题中,我们费心费力收集到的数据集并不能穷尽所有的状态,而且一般训练得到的模型被用来预测未知数据的结果,模型虽然在训练集上效果很好,但是在实际应用中效果差,就说明这个模型训练的并不是很成功,还需要改进。就譬如下方的图像中,左边黑...原创 2020-03-15 20:54:06 · 6173 阅读 · 1 评论 -
线性回归
什么是回归分析回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。通常使用曲线/线来拟合数据点,目标是使曲线到数据点的距离差异最小。线性回归线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。通长我们可以...原创 2020-03-14 22:19:41 · 773 阅读 · 0 评论 -
集成学习(6)——LightGBM
目录一 LightGBM特点二 Histogram算法三 LightGBM的细节技术1. Histogram optimization2 内存消耗和计算上优化3 带深度限制的Leaf-wise的叶子生长策略4、直方图做差优化5、 增加缓存命中率6、支持类别特征7、支持并行学习7.1 特征并行7.2 数据并行7.3 投票并行8、网络通信的优化四、支持的应用和度量1 应...原创 2020-03-14 21:38:09 · 593 阅读 · 0 评论 -
集成学习(5)——XGBoost
GBDT算法基于经验损失函数的负梯度构造新的决策树,并且在决策树构建完成后进行剪枝(后剪枝)。XGBoost在决策树构建阶段就加入了正则项,如下为XGBoost的损失函数:Lt=∑il(yi,Ft−1+ft(xi))+Ω(ft)L_t=\sum_il(y_i,F_{t-1}+f_t(x_i))+\Omega(f_t)Lt=∑il(yi,Ft−1+ft(xi))+Ω(ft)其中F...原创 2020-03-14 19:31:53 · 181 阅读 · 0 评论 -
集成学习(4)——GBDT
概述GBDT的全称是Gradient boosting decision tree,它是通过拟合负梯度Gradient boosting和决策回归树decision tree组合而成,该算法由多颗决策树构成,多颗决策树的结果加起来作为最终结论。让损失函数沿着梯度方向的下降。这个就是GDBT 的 GB的核心。GBDT 每轮迭代的时候,都去拟合损失函数在当前模型下的负梯度。(如果损失函数使用的是平方...转载 2020-03-14 14:55:11 · 525 阅读 · 0 评论 -
集成学习(3)——随机森林
Bagging + 决策树 = 随机森林转载 2020-03-14 00:57:37 · 2968 阅读 · 0 评论 -
集成学习(2)——Adaboost(分类问题)
集成学习一般来说可分为以下3个步骤:找到误差互相独立的基分类器训练基分类器合并基分类器的结果注意:不稳定的学习器更适合作为基分类器Adaboost算法原理AdaBoost算法针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(强分类器)。理论证明,只要每个弱分类器分类能力比随机猜测要好,当其个数趋向于无穷个数时...原创 2020-03-14 00:09:49 · 591 阅读 · 0 评论 -
集成学习(1)——集成学习的种类
简述在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技术组合成一个预测...原创 2020-03-13 23:22:42 · 3767 阅读 · 1 评论 -
最小二乘支持向量机LSSVM
简介SVM标准算法在应用中存在着超平面参数选择,以及QP问题求解中矩阵规模受训练样本数目的影响很大,导致求解规模过大的问题。Suykens等人提出的最小二乘支持向量机(Least Squares Support Vector Machines,LS-SVM)从机器学习损失函数着手,在其优化问题的目标函数中使用二范数,并利用等式约束条件代替SVM标准算法中的不等式约束条件,使得LS-SVM方法的...原创 2020-03-13 21:54:39 · 14819 阅读 · 4 评论 -
优化方法
机器学习中,有许多优化器,下面分析常用的几种优化方法的作用,是通过进行某种方式的训练,来最小化(或最大化)损失函数loss(x)。目录gradient descent梯度下降Stochastic Gradient Descent随机梯度下降Mini-batch Gradient Descent小批量梯度下降Momentum动量技术Nesterov Momentum&nbs...转载 2020-03-13 20:29:42 · 886 阅读 · 0 评论 -
拉格朗日乘子法
拉格朗日乘子法在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用...原创 2020-03-13 20:02:54 · 321 阅读 · 0 评论 -
支持向量机SVM
支持向量机SVM简介线性可分支持向量机非线性支持向量机和核函数线性支持向量机(软间隔支持向量机)与松弛变量简介支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当训练样本近...原创 2020-03-13 19:39:44 · 314 阅读 · 0 评论 -
决策树
决策树决策树原理决策树的构造过程决策树的优缺点决策树启发函数使用ID3、C4.5、CART构建决策树的准则ID3——最大信息增益C4.5 ——最大信息增益比CART——最大基尼指数(Gini)三种准则的计算过程:三者的差异决策树的剪枝预剪枝后剪枝决策树原理决策树是一种基本的分类与回归方法。它可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树是一...原创 2020-03-13 17:50:47 · 482 阅读 · 0 评论 -
Python机器学习笔记5(偏差和方差)
机器学习练习 5 - 偏差和方差本章代码涵盖了基于Python的解决方案,用于Coursera机器学习课程的第五个编程练习。import numpy as npimport scipy.io as sioimport scipy.optimize as optimport pandas as pdimport matplotlib.pyplot as pltimport seabor...原创 2020-03-11 22:04:28 · 601 阅读 · 0 评论 -
Python机器学习笔记-4(神经网络前向传播+反向传播)
机器学习练习 4 - 神经网络本章代码涵盖了基于Python的解决方案,用于Coursera机器学习课程的第四个编程练习。对于这个练习,我们将再次处理手写数字数据集,这次使用反向传播的前馈神经网络。 我们将通过反向传播算法实现神经网络成本函数和梯度计算的非正则化和正则化版本。 我们还将实现随机权重初始化和使用网络进行预测的方法。由于我们在练习3中使用的数据集是相同的,所以我们将重新使用代码来...原创 2020-03-11 20:43:14 · 1378 阅读 · 0 评论 -
Python机器学习笔记-3(多类分类)
机器学习练习 3 - 多类分类该代码涵盖了基于Python的解决方案,用于Coursera机器学习课程的第三个编程练习。 有关详细说明和方程式对于此练习,我们将使用逻辑回归来识别手写数字(0到9)。 我们将扩展我们在练习2中写的逻辑回归的实现,并将其应用于一对一的分类。 让我们开始加载数据集。 它是在MATLAB的本机格式,所以要加载它在Python,我们需要使用一个SciPy工具。impo...原创 2020-03-11 19:32:07 · 1142 阅读 · 0 评论 -
Python机器学习笔记-1(线性回归)
1.单变量线性回归导入包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt导入数据集path = 'ex1data1.txt'data = pd.read_csv(path, header=None, names=['Population', 'Profit'])#names列名在开始任何任...原创 2020-03-11 14:29:08 · 6361 阅读 · 7 评论 -
Python机器学习笔记-2(logistics regression公式推导和代码实现)
1. 引言logistic回归是机器学习中最常用最经典的分类方法之一,有人称之为逻辑回归或者逻辑斯蒂回归。虽然他称为回归模型,但是却处理的是分类问题,这主要是因为它的本质是一个线性模型加上一个映射函数Sigmoid,将线性模型得到的连续结果映射到离散型上。它常用于二分类问题,在多分类问题的推广叫softmax。本文首先阐述Logistic回归的定义,然后介绍一些最优化算法,其中包括基本的梯度上...原创 2020-03-11 13:06:11 · 1230 阅读 · 0 评论 -
tensorflow 2.0 001keras_overview
KerasKeras 是一个用于构建和训练深度学习模型的高阶 API。它可用于快速设计原型、高级研究和生产。keras的3个优点:方便用户使用、模块化和可组合、易于扩展1.导入tf.kerastensorflow2推荐使用keras构建网络,常见的神经网络都包含在keras.layer中(最新的tf.keras的版本可能和keras不同)import tensorflow as tf...转载 2019-11-18 10:50:03 · 118 阅读 · 0 评论 -
统计学习方法 第二章 感知机
感知机是根据输入实例的特征向量xxx对其进行二类分类的线性分类模型:f(x)=sign(w⋅x+b)f(x)=\operatorname{sign}(w \cdot x+b)f(x)=sign(w⋅x+b)感知机模型对应于输入空间(特征空间)中的分离超平面w⋅x+b=0w \cdot x+b=0w⋅x+b=0。感知机学习的策略:极小化损失函数:minw,bL(w,b)=−∑xi∈...原创 2019-11-02 08:57:51 · 136 阅读 · 0 评论