隔壁王者新-CSDN博客

原创相关性分析方法

相关性分析是指对两个或多个具备相关性呃变量元素进行分析，从而衡量两个变量因素之间的相关密切程度。一般常用四种方法：画图判断（散点图向量或散点图矩阵）ax.scatter(data1,data2)pearson(皮尔逊)相关系数要求样本满足正态分布—两个样本之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商，其值介于-1与1之间。协方差：sxy=1n−1∑k=1n(xk−x...

2019-08-30 16:38:43 8585 1

当程序计算的两个数字的乘积超过了基本类型的表示范围，可以使用Karatsuba算法，即采用分治的思想。Karatsuba于1960年发明在 O(nlog⁡23){\rm O}(n^{\log 2^3 } )O(nlog23) 步骤内将两个n位数相乘的Karatsuba算法。它反证了安德雷·柯尔莫哥洛夫于1956年认为这个乘法需要 Ω(n2)\Omega (n^{2})Ω(n2) 步骤的猜想。...

2019-07-27 16:24:20 280

转载推荐学习总结

个性化召回：召回：从item全局中选取一部分作为候选集根据用户的属性行为上下文等信息从物品全集中选取其感兴趣的物品作为候选集。召回的重要作用：召回决定了最终推荐的天花板个性化召回算法：基于用户行为的；基于用户属性的；（user profile）基于隐语义的；LFM算法理论与公式推导：与CF优缺点比较：...

2019-07-12 10:32:49 198

原创 SVM(支持向量机)总结

函数间隔与几何间隔：函数间隔：给定一个训练样本(x(i),y(i))(x^{(i)} ,y^{(i)} )(x(i),y(i)), xxx是特征，yyy是结果标签，iii表示第iii个样本。则函数间隔定义为：γ^(i)=y(i)(wTx(i)+b)\hat \gamma ^{(i)} = y^{(i)} (w^T x^{(i)} + b)γ^(i)=y(i)(wTx(i)+b)函数间隔...

2019-07-02 19:57:56 291

原创 LDA(线性判别分析)学习总结

LDA是一种有监督的降维和分类算法，其主要思想是投影后类内方差最小，类间方差最大。二分类情况类间离散度定义为：(μ~1−μ~2)2=(wTμ1−wTμ2)2=wT(μ1−μ2)(μ1−μ2)Tw=wTSBw(\tilde \mu _1 - \tilde \mu _2 )^2 = (w^T \mu _1 - w^T \mu _2 )^2 = w^T (\mu _1 - \mu _2...

2019-07-02 16:24:16 640

原创面试相关知识

构造函数：用于初始化类的内部状态，一般在class运行时会首先调用构造函数__init__()函数来实例化对象。当没有手动添加构造函数时，系统会默认设置一个无参的构造函数。self代表类的实例[对象],而非类本身。类的方法与普通的函数只有一个特殊的区别—>他们必须有一个额外的第一个参数名称,按照惯例它的名字是self。支持向量机常用核函数：多项式核函数、高斯核函数和字符串核函数析构函...

2019-07-02 08:51:38 166

原创决策树相关知识

决策树总结1.决策树的路径及其对应的if-then规则集合具有一个重要的性质：互斥且完备。2.学习的目标是根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。3.决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。4.决策树学习的算法通常是一个递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类...

2019-07-02 08:50:03 284

原创 PCA与PLS的区别

主成分分析（PCA）是一种无监督学习方法，通过对数据做正交旋转变换，使变换后的变量都是正交的。目的是对多变量数据信息进行调整组合，提取较少的综合变量特征去解释原来数据资料的大部分信息。也就是在力保数据信息损失最少的原则下，对高维数据空间进行降维。PCA降维之后得到的特征变量通常是原始变量特征的线性组合（KPCA通过核函数的方法得到非线性特征），主成分之间相互正交，消除了变量之间的多重共线性。但是...

2019-07-01 16:20:07 16377

转载数据预处理方法总结

数据预处理方法总结数据是什么？数据就是一组对象及其属性的集合，其中属性定义为对象的特征或性质。真实数据在应用前基本都有经过预处理，以便在机器学习算法中使用。本次数据预处理方法的总结是基于推荐系统设计进行展开的，其中包括相似度的度量方法、抽样以及降维技术这三个尤为重要的问题。相似度度量方法在相似度度量方法中，最简单、最常用的就是欧几里得距离：d(x,y)=∑k=1n(xk−yk)2{\...

2019-07-01 15:37:48 2504

转载自编码器

自编码器在网上一直在搜自编码器的相关资料，但好多看不懂，可能是自己水平限制吧，毕竟对自编码器什么都不懂。经过自己这几天搜集资料，希望能够写一篇相对完善的关于自编码器的资料，希望能有小白看过之后对自编码器有一个初步的了解。自编码器是神经网络的一种，经过训练后能够将输入复制到输出。该网络可以看到由两部分组成：一个由函数h=f(x)表示的编码器和一个生成重构的解码器r=g(h)。这个可能很多人认为没...

2019-07-01 15:36:08 2374

原创机器学习算法构建流程

数据挖掘流程：我在天池做过一些比赛，比如新人赛里面的o2o，但对于建模前的一些准备（特征工程或者说叫数据挖掘）并没有什么概念，网上也并没有找到相应的资料。刚好今天在网上的课程（京东购买预测）中找到了详细的步骤，故做记录保存分享。（一）数据清洗1.数据集完整性验证数据是否存在残缺2.数据集中是否存在缺失值缺失数据是很常见的。python中的pandas的部分函数是可以用来处理缺失...

2019-07-01 15:34:00 1881

原创故障数据特征提取

从故障信号中提取特征特征工程包含特征构建、特征提取、特征选择等，特征提取中有PCA、ICA、LDA以及最新的降维方法t-SNE等，特征选择也有很多种方法可供使用。本人是研究基于数据驱动的汽车故障诊断，在研究中发现故障信号数据集并不能直接送入有监督的分类器中，还需要在原先数据集的基础上进行特征工程，以便取得更好的检测效果。阅读论文的过程中找到以下6个公式可以从信号数据集中计算统计特征。以下每个...

2019-07-01 15:28:41 9724 1