读书不觉已春深！-CSDN博客

原创科大讯飞：电信客户流失预测挑战赛baseline

参考：读取数据集：客户ID 地理区域是否双频是否翻新机当前手机价格手机网络功能婚姻状况家庭成人人数信息库匹配预计收入 ... 客户生命周期内平均月费用客户生命周期内的平均每月使用分钟数客户整个生命周期内的平均每月通话次数过去三个月的平均每月使用分钟数过去三个

2022-06-16 23:23:45 1638

一、XGBoostXGBoost官方文档1.1 XGBoost原理及构建XGBoost本质上还是一个GBDT，是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。Xgboost以CART决策树为子模型，通过Gradient Tree Boosting实现多棵CART树的集成学习，得到最终模型。XGBoost的最终模型构建：引用陈天奇的论文，我们的数据为：D={(xi,yi)}(∣D∣=n,xi∈Rm,yi∈R)\mathcal{D}=\left\{\left(\mathbf{x}_{i},

2021-12-25 02:44:34 212

原创集成学习2：Boosting算法：Adaboost&GBDT

文章目录一、 Boosting算法原理二、 Adaboost算法2.1 Adaboost算法原理2.2 Adaboost算法举例2.3 Adaboos代码举例三、前向分步算法3.1加法模型3.2 前向分步算法3.3 前向分步算法与Adaboost的关系四、梯度提升决策树(GBDT)4.1 Decision Tree：CART回归树4.2 回归提升树算法4.3 梯度提升决策树算法(GBDT)4.3 GBDT代码示例一、 Boosting算法原理Bagging：通过Bootstrap 的方式对全样本数据

2021-12-25 02:43:44 279

原创学习笔记九：BERT和它的小伙伴们

车万翔《基于预训练模型的自然语言处理》读书笔记1.BERT的可解释性（7.5）对很多实际应用而言，模型的性能和可解释性都很重要。BERT类的预训练模型体量庞大，参数众多，预测行为难以理解和不可控。解释性：以人类的视角理解模型的行为。NLP中最具解释性的概念系统是语言学特征。可解释性分两种：自解释性模型（self-explainable）：模型构建之初就针对性设计其结构，使其具备可解释性模型行为的事后解释，BERT等大规模预训练模型属于此种本节从自注意力和表示学习两个角度分析BE

2021-12-23 04:08:35 789

原创学习笔记八：transformer面试点

一、transformer1.1 为啥FFNN第一层将向量扩维到4倍个人理解，类似于“特征组合器”，增大神经元个数，增强Transformer对于distributed的文本特征的组合能力，从而获取更多、更复杂的语义信息。二、BERT2.1 BERT的三个Embedding直接相加会对语义有影响吗？原帖子在这这是一个非常有意思的问题，苏剑林老师也给出了回答，真的很妙啊：Embedding的数学本质，就是以one hot为输入的单层全连接，也就是说，世界上本没什么Embedding，有的只是o

2021-12-08 00:37:54 765

原创学习笔记七：transformer总结（1）

一、attention1.1循环神经网络的不足：长距离衰减问题解码阶段，越靠后的内容，翻译效果越差解码阶段缺乏对编码阶段各个词的直接利用1.2 attention在机器翻译的优点使用全部token信息而非最后时刻的context信息。由此在解码时每时刻可以计算attention权重，让输出对输入进行聚焦的能力，找到此时刻解码时最该注意的词。attention的计算是序列各tokens的v向量和attention权重加权求和，每个词关注到所有词，一步到位，不存在长距离衰减可以关注到不同位

2021-12-06 00:03:13 1284

转载学习笔记七：集成学习1——voting、bagging&stacking

文章目录一、投票法与bagging1.1 投票法的原理分析1.2 Voting案例分析1.3 bagging的原理分析1.4 决策树和随机森林1.5 bagging案例分析二、stacking2.1 Blending算法原理2.2 Blending案例2.3 Stacking算法原理2.4 Stacking算法案例2.4.1 基分类器预测类别为特征2.4.2 基分类器类别概率值为特征2.4.3 基分类器使用部分特征2.4.4 结合网格搜索优化2.4.5 绘制ROC曲线2.4.6 Blending与Sta

2021-12-02 00:53:25 613

原创学习笔记六——循环神经网络

文章目录一、RNN1.1 RNN模型结构1.2 RNN模型的缺点二、长短时记忆网络LSTM2.2 双向循环神经网络Bi-LSTM一、RNN前馈神经网络：信息往一个方向流动。包括MLP和CNN循环神经网络：信息循环流动，网络隐含层输出又作为自身输入，包括RNN、LSTM、GAN等。1.1 RNN模型结构RNN模型结构如下图所示：展开之后相当于堆叠多个共享隐含层参数的前馈神经网络：其输出为：ht=tanh(Wxhxt+bxh+Whhht−1+bhh)\mathbf {h_{t}=tanh(W

2021-11-30 04:30:21 870

原创学习笔记五：卷积神经网络(CNN)

一、CNN的引出1.1 图像图像具有平移不变性和旋转不变性。即对图像的平移或者轻微旋转不改变其类别。图像可以用像素点来表示，存储为一个三维矩阵（长×宽×channels）黑白图片channels=1，即每个像素点只有灰度值。彩色图像channels=3，每个像素点由RGB三原色组成，对应一个三维向量，值域[0，255]。一般0表示白色，255表示黑色1.2 DNN图像分类的问题如果直接将图像根据各像素点的向量作为图片特征输入模型，例如LR、SVM、DNN等模型进行分类，理论上可行，但是面临以下

2021-11-27 23:15:49 2836

原创卷积神经网络(CNN)

卷积神经网络(CNN)@(深度学习)文章目录卷积神经网络(CNN)(一)卷积神经网络(CNN)模型结构1. CNN的基本结构2. 初识卷积3. CNN中的卷积层4. CNN中的池化层5. CNN模型结构小结（二）卷积神经网络(CNN)前向传播算法1. 回顾CNN的结构2. CNN输入层前向传播到卷积层3. 隐藏层前向传播到卷积层4. 隐藏层前向传播到池化层5. 隐藏层前向传播到全连接层6. CNN前向传播算法小结6.1 回顾DNN的反向传播算法6.2 CNN的反向传播算法思想6.3 已知池化层的δl\

2021-11-27 21:52:23 531

转载学习笔记四：word2vec和fasttext

FastText：快速的文本分类器文章目录一、word2vec1.1 word2vec为什么不用现成的DNN模型1.2 word2vec两种模型：CBOW和Skip-gram1.2 word2vec两种优化解法：霍夫曼树和负采样1.2.2 基于Hierarchical Softmax的CBOW模型算法流程：1.2.3 负采样方法1.3 总结：二、fasttext2.1、简介2.2 FastText原理2.2.1 模型架构2.2.2 层次SoftMax2.2.3 N-gram特征2.2.4 subword

2021-11-27 18:26:31 2095

原创学习笔记三：深度学习DNN2

一、神经网络参数优化器参考曹健《人工智能实践：Tensorflow2.0 》深度学习优化算法经历了SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam这样的发展历程。上图中f一般指loss一阶动量：与梯度相关的函数二阶动量：与梯度平方相关的函数不同的优化器，实质上只是定义了不同的一阶动量和二阶动量公式2.2 SGD（无动量）随机梯度下降。最常用的梯度下降方法是随机梯度下降，即随机采集样

2021-11-25 21:31:06 1890

原创复习笔记2——线性回归、决策树、聚类

复习笔记2——线性回归、决策树、聚类文章目录复习笔记2——线性回归、决策树、聚类一、.线性回归3.sklearn.metrics4.PolynomialFeatures构建特征5.机器学习中的random_state参数5.Solver lbfgs supports only “l2” or “none” penalties, got l1 penalty.解决办法二、决策树和随机森林2.1随机森林的随机性：2.2优缺点：2.3调参三、聚类3.2 kmeans一、.线性回归fit_intercept

2021-11-23 20:33:20 1372

原创学习笔记1：线性回归和逻辑回归、AUC

复习笔记1——线性回归和逻辑回归文章目录复习笔记1——线性回归和逻辑回归一、机器学习基本概念1.1 什么是模型1.2 极大似然估计1.3为啥使用梯度下降法求解1.4 梯度下降法本质1.5 梯度下降的算法调优1.6 归一化的作用1.7 类别特征的表示1.8 组合特征二、线性回归2.1为啥线性回归使用mse做损失函数2.2 线性回归的抗噪声、抗冗余2.3 正则化和过拟合2.4 欠拟合的解决办法2.5 泛化误差上界三、逻辑回归3.1为何逻辑回归使用交叉熵为损失函数3.2如何理解AUC3.2.1、关于ROC的几个

2021-11-23 20:13:19 810

原创学习笔记三：深度学习DNN

文章目录一、BP神经网络1.1 为何要引出BP神经网络1.2 BP神经网络基本原理1.3 神经网络的多分类1.4 二分类使用softmax还是sigmoid好？1.6度量学习二、神经网络调优2.1 激活函数得选型一、BP神经网络1.1 为何要引出BP神经网络逻辑回归对于如今越来越复杂的任务效果越来越差，主要是难以处理线性不可分的数据，LR处理线性不可分，一般是特征变换和特征组合，将低维空间线性不可分的数据在高维空间中线性可分改良方式有几种，本质上都是对原始输入特征做文章。但都是针对特定场景设计。如

2021-11-23 20:04:11 1796

m0_64375823的博客