Rudy95-CSDN博客

转载关于矩阵分解，SVD方面

非奇异矩阵也就是可逆矩阵假设A是一个n×nn\times nn×n维的矩阵，λ\lambdaλ为矩阵A的一个特征值，xxx为其对应的特征向量。假设AAA矩阵的n个特征值为λ1\lambda_1λ1,λ2\lambda_2λ2,λ3\lambda_3λ3…λn\lambda_nλn，这n个特征值对应的特征向量为w1w_1w1,w2w_2w2,w3w_3w3…wnw_nwn则矩阵A可...

2019-09-03 09:53:28 475

问题来源：当一个分类任务的数据集中来自不同类别的样本数目相差悬殊时，我们通常称该数据集为“类别不平衡”的。以一个现实任务为例：在点击率预估（click-through rate prediction）任务中，每条展示给用户的广告都产生一条新样本，而用户最终是否点击了这条广告决定了样本的标签。显然，只有很少一部分的用户会去点击网页里的嵌入广告，这就导致最终得到的训练数据集中正/负例样本的数量差距悬...

2019-09-02 09:34:08 2503

原创 XGBoost的改进----Lightgbm

Lightgbm改进的点：基于Histogram的决策树算法带深度限制的Leaf-wise的叶子生长策略直方图做差加速直接支持类别特征(Categorical Feature)Cache命中率优化基于直方图的稀疏特征优化多线程优化下面主要介绍Histogram（直方图）做差加速、带深度限制的Leaf-wise的叶子生长策略。基于histogram的决策树算法直方图算法的基本思...

2019-08-23 16:40:22 4263

原创特征编码

单值无序：one-hot优点;独热编码解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。缺点：1、当类别的数量很多时，特征空间会变得非常大。2、对于特定任务，例如词向量化，直接使用onehot的方式是无法考虑到词之间的交互关系的，onehot之后损失了部分信息。推而广之，如果特征之间是非独立的（比如上下文的词之间是存在交互关系...

2019-08-22 10:50:24 2414

原创特征预处理，特征选择

特征选择

2019-08-21 16:29:52 733

原创 attention机制

广义认为是表示重要性的权重向量步骤一：计算其他元素与待测元素的相关性权重步骤二：根据相关性权重对其他元素进行加权求和seq2seq:encoder-decoder存在的问题：中间的存储向量的尺寸固定通过attention机制解决计算每个时刻的输出与加权的乘积，...

2019-08-21 10:57:15 288

原创 XGBoost整理

GBDT,XGboot,LightGBM

2019-08-20 15:05:53 634

原创信息熵，交叉熵，相对熵

信息熵：衡量系统中不确定的程度、编码方案完美时，最短平均编码长度交叉熵：码方案不一定完美时（由于对概率分布的估计不一定正确），平均编码长度。是神经网络常用的损失函数相对熵又称为散度：交叉熵-信息熵，relative entropy。编码方案不一定完美时，平均编码长度相对于最小值的增加值。参考链接：https://www.zhihu.com/question/41252833神经网络中为什么...

2019-08-12 10:29:34 285

原创 FM，FFM,DeepFM

https://zhuanlan.zhihu.com/p/63267172

2019-08-10 16:24:10 881

原创图嵌入的几种方法

目前的图算法一般指：1.数据结构中的，最小生成树（Prim算法），最短路径（迪杰斯特拉，佛洛依德），拓扑排序，关键路径2.概率图模型，涉及图的表示3.图神经网络，包括图嵌入（graph embedding(基于随机游走））和GCN(基于邻居汇聚）两部分图嵌入：将图中的节点以低维稠密的形式表达，要求在原始图中相似的节点在地位表达空间也接近。得到的表达向量可以用于下游任务主要有：deepW...

2019-08-05 16:22:07 4677

原创（深度学习）CNN和RNN，LSTM公式推导

BP的流程：CNN前向：反向：尺寸计算参数计算RNN前向：后向：

2019-07-28 20:20:57 1887

原创（深度学习）Batch_normalization层

Batch_normalization是什么？传统的神经网络，只是在将样本x进入到输入层之前对x进行0-1标准化处理（减均值，除标准差），以降低样本间的差异性，如下图所示：。BN是在此基础上，不仅仅只对输入层的输入数据x进行标准化，还对每个隐藏层的输入进行标准化，如下图所示：加了一个batch_normalization层后，输入x首先乘以权重加上偏置得到s1，对s1进行归一化后，再进行伸...

2019-07-18 15:38:09 1183

转载 W2V原理(一）

W2V

2019-07-16 10:30:44 7714

转载梯度下降，坐标轴下降法，牛顿法，拟牛顿法，共轭梯度法求解方法整合

梯度下降

2019-07-14 11:19:02 445

原创 bagging与随机森林（python实现）

bagging

2019-07-14 11:00:35 1295

原创关于L0,L1,L2正则化

关于L0,L1,L2正则化

2019-07-10 19:23:51 385

原创（数据结构）各种排序方法的python实现

排序

2019-07-08 19:10:56 448

原创（数据结构）关键路径和最短路径

关键路径（AOE)AOE和AOV的区别AOV网和AOE网的不同：它们都是用来对工程建模的，但它们还是有很大的区别，主要体现在AOV网是顶点表示活动的网，它只描述了活动之间的约束关系，而AOE网是用有向边表示活动，边上的权值表示活动持续的时间。AOE网是建立在AOV网基础之上（活动之间约束关系没有矛盾），再来分析完成整个工程至少需要多少时间，或者为缩短完成工程所需时间，应当加快那些活动等问题。...

2019-07-07 12:01:23 9914 2

原创聚类方法总结以及代码实现

距离度量：闵科夫斯基距离针对有序的属性可以使用闵科夫斯基距离，无序的属性使用VDMK-means法k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。K-means的算法流程：首先我们看看K-Means算法的一些要点。　　　　1）对于K-Means算法，首先要注意的是k值的选择，一般来...

2019-07-05 14:47:50 2624

原创降维方法总结及python实现

为什么要降维？高维情形下，样本数据稀疏，距离计算困难。为什么能进行降维？收集的数据虽是高维但与学习任务密切相关的也许仅仅是某个低维分布无监督降维：PCA最大重构性：找到一个超平面使得样本点在这个超平面的投影尽量分开。PCA也可以看作是逐一筛选方差最大方向；对协方差矩阵XX^T特征分解，取最大特征值及其特征向量；在去掉该特征值以及特征向量后，继续取最大特征值；...

2019-06-25 11:11:33 4932

原创（李航统计学习方法）提升方法

本文主要包括adaboost和提升树，后期会扩展到XGboost和LightGBM。boosting通过改变样本训练权重，学习多个弱分类器，最后进行线性组合，提高分类性能。两个着重点：如何改变数据的样本权重或概率分布如何将弱分类器整合成强分类器Adaboost(Adaptiveboost)adaboost通过提高错误分类样本权重，使的下一轮错误数据由于上一轮调高权重，而受到弱分类的关注...

2019-06-24 15:20:13 442

原创（李航统计学习方法）SVM的python实现

支持向量机是一种二分类模型，基本模型是定义在特征空间的间隔最大的线性分类器。间隔最大化使它有别于感知机。模型：策略：间隔最大化，形式化为求解凸二次规划，等价于正则化的合页损失函数最小化算法：略...

2019-06-19 17:35:28 1345

原创数据结构基础：python实现堆排序

堆的概念：堆是一种完全二叉树，就是除了最后一层之外的其他每一层都被完全填充，并且所有结点都保持向左对齐的树。就像码金字塔的砖块，必须从头到底，从左到右一个一个码，不能空缺。堆有两种类型：大根堆，小根堆大根堆：每个结点的值都大于或等于左右孩子结点小根堆：每个结点的值都小于或等于左右孩子结点大根堆：小根堆大根堆构建流程：先依旧数据构建一个完全二叉树此处使用逻辑上的完全二叉树：...

2019-06-14 19:59:11 191

原创（李航统计学习方法）逻辑回归

逻辑回归模型在面试的过程中，最常问到的就是公式的推导过程。所以，手撕公式，很重要。首先介绍的是逻辑斯蒂分布：X是连续随机变量，X服从逻辑斯蒂分布。逻辑斯蒂分布的分布函数与密度函数如下：二项逻辑斯蒂回归模型它是一种分类模型，由条件概率P（Y|X）表示，形式为参数化的逻辑斯蒂分布。其中，exp为以e为底的指数函数，x∈Rn是输入，y∈{0,1}输出，w，b是模型参数——w是权值向量，b...

2019-06-13 15:13:27 1630

原创（李航统计学习方法）决策树python实现

决策树是判别式模型，可以解决分类和回归问题。分类树对离散型变量做决策，回归树是对连续变量做决策；其在空间上表示，类似于在不同维度进行切分。决策树构建的三个部分：特征选择，决策树生成，剪枝ID3采用信息增益作为节点分裂选择特征的衡量标准,。熵的概念：源于香农信息论，用于刻画信息混乱程度的一种度量。公式：*Entropy=-p*logp信息增益=原数据集的经验熵-去条件经验熵python代...

2019-06-06 14:15:44 795

原创 (李航统计方法学习）朴素贝叶斯Python实现

朴素贝叶斯属于生成模型，学习数据概率分布P(X,Y)，然后求后验概率P(Y|X)。对条件概率分布作条件独立性假设。模型：贝叶斯定理策略：后验概率最大化（等价于期望风险最小化）算法：略朴素贝叶斯在进行概率估计时有两种方式：基于最大似然估计、基于贝叶斯估计。朴素贝叶斯可以进一步扩展成贝叶斯网络import numpy as npdef Train(X_train,Y_train,feat...

2019-06-02 10:00:00 394

原创（李航统计方法学习）KNN的Python实现

K-NN（k-nearest neighbor)是一种基本分类与回归的方法。分类;模型：利用训练数据集对特征向量空间进行划分（有点决策树的意思）策略：惰性学习，应该是没有优化策略的算法：略k近邻的三个基本要素：k的选择，距离度量，分类决策规则（多数表决规则等价于经验风险最小）K近邻的缺点：数据量大，特征维度大的计算复杂度会很高（kd树存储结构）##K-NN实现##使用欧氏距离，...

2019-06-02 09:48:20 418

原创（李航统计学习方法）感知机Python实现

机器学习的三要素：模型，策略，算法模型：感知机是二分类线性分类模型，属于判别模型。策略：基于误分类点到超平面的总距离。学习算法：略感知机存在的问题：存在多解，解依赖于初始超平面的选择以及迭代过程中误分类点的选择。训练集线性不可分，算法无法收敛，解决方法：使用核函数。无法解决异或问题Python代码实现：import numpy as npdef train(X_train,...

2019-05-28 11:30:23 485

原创数据挖掘方面的比赛及代码资料整合（另附NLP相关知识）

关于GBDT原理的相关链接：GBDT、XGBoost、LightGBM 的使用及参数调优 https://zhuanlan.zhihu.com/p/33700459GBDT算法原理以及实例理解 https://blog.csdn.net/zpalyq110/article/details/79527653梯度提升树(GBDT)原理小结 https://www.cnblogs.com/pin...

2019-05-20 19:20:22 1709

原创（Python基础）and 和 &的区别

Python中，&是位运算，而and 是依据是否非0来输出。代码// An highlighted blockprint(8&9)结:1：8print(8 and 9)结果2：9print(0 and 9）结果3：0结果1：8的二进制是1000,9的二进制是1001，对应每个二进制位上进行与操作，得到二进制1000，转化十进制就是8结果2：8不为0，则输出后面...

2019-05-15 11:37:32 1439

Rudy95的博客