机器学习基础
Rudy95
talking is cheap
展开
-
(李航统计方法学习)朴素贝叶斯Python实现
朴素贝叶斯属于生成模型,学习数据概率分布P(X,Y),然后求后验概率P(Y|X)。对条件概率分布作条件独立性假设。模型:贝叶斯定理策略:后验概率最大化(等价于期望风险最小化)算法:略朴素贝叶斯在进行概率估计时有两种方式:基于最大似然估计、基于贝叶斯估计。朴素贝叶斯可以进一步扩展成贝叶斯网络import numpy as npdef Train(X_train,Y_train,feat...原创 2019-06-02 10:00:00 · 330 阅读 · 0 评论 -
图嵌入的几种方法
目前的图算法一般指:1.数据结构中的,最小生成树(Prim算法),最短路径(迪杰斯特拉,佛洛依德),拓扑排序,关键路径2.概率图模型,涉及图的表示3.图神经网络,包括图嵌入(graph embedding(基于随机游走))和GCN(基于邻居汇聚)两部分图嵌入:将图中的节点以低维稠密的形式表达,要求在原始图中相似的节点在地位表达空间也接近。得到的表达向量可以用于下游任务主要有:deepW...原创 2019-08-05 16:22:07 · 4476 阅读 · 0 评论 -
XGBoost的改进----Lightgbm
Lightgbm改进的点:基于Histogram的决策树算法带深度限制的Leaf-wise的叶子生长策略直方图做差加速直接支持类别特征(Categorical Feature)Cache命中率优化基于直方图的稀疏特征优化多线程优化下面主要介绍Histogram(直方图)做差加速、带深度限制的Leaf-wise的叶子生长策略。基于histogram的决策树算法直方图算法的基本思...原创 2019-08-23 16:40:22 · 4012 阅读 · 0 评论 -
XGBoost整理
GBDT,XGboot,LightGBM原创 2019-08-20 15:05:53 · 548 阅读 · 0 评论 -
信息熵,交叉熵,相对熵
信息熵:衡量系统中不确定的程度、编码方案完美时,最短平均编码长度交叉熵:码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码长度。是神经网络常用的损失函数相对熵又称为散度:交叉熵-信息熵,relative entropy。编码方案不一定完美时,平均编码长度相对于最小值的增加值。参考链接:https://www.zhihu.com/question/41252833神经网络中为什么...原创 2019-08-12 10:29:34 · 220 阅读 · 0 评论 -
attention机制
广义认为是表示重要性的权重向量步骤一:计算其他元素与待测元素的相关性权重步骤二:根据相关性权重对其他元素进行加权求和seq2seq:encoder-decoder存在的问题:中间的存储向量的尺寸固定通过attention机制解决计算每个时刻的输出与加权的乘积,...原创 2019-08-21 10:57:15 · 212 阅读 · 0 评论 -
特征预处理,特征选择
特征选择原创 2019-08-21 16:29:52 · 637 阅读 · 0 评论 -
特征编码
单值无序:one-hot优点;独热编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用。它的值只有0和1,不同的类型存储在垂直的空间。缺点:1、当类别的数量很多时,特征空间会变得非常大。2、对于特定任务,例如词向量化,直接使用onehot的方式是无法考虑到词之间的交互关系的,onehot之后损失了部分信息。推而广之,如果特征之间是非独立的(比如上下文的词之间是存在交互关系...原创 2019-08-22 10:50:24 · 2314 阅读 · 0 评论 -
极端类别不平衡数据下的分类问题
问题来源:当一个分类任务的数据集中来自不同类别的样本数目相差悬殊时,我们通常称该数据集为“类别不平衡”的。以一个现实任务为例:在点击率预估(click-through rate prediction)任务中,每条展示给用户的广告都产生一条新样本,而用户最终是否点击了这条广告决定了样本的标签。显然,只有很少一部分的用户会去点击网页里的嵌入广告,这就导致最终得到的训练数据集中正/负例样本的数量差距悬...转载 2019-09-02 09:34:08 · 2310 阅读 · 0 评论 -
聚类方法总结以及代码实现
距离度量:闵科夫斯基距离针对有序的属性可以使用闵科夫斯基距离,无序的属性使用VDMK-means法k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。K-means的算法流程:首先我们看看K-Means算法的一些要点。 1)对于K-Means算法,首先要注意的是k值的选择,一般来...原创 2019-07-05 14:47:50 · 2545 阅读 · 0 评论 -
bagging与随机森林(python实现)
bagging原创 2019-07-14 11:00:35 · 1210 阅读 · 0 评论 -
(李航统计学习方法)感知机Python实现
机器学习的三要素:模型,策略,算法模型:感知机是二分类线性分类模型,属于判别模型。策略:基于误分类点到超平面的总距离。学习算法:略感知机存在的问题:存在多解,解依赖于初始超平面的选择以及迭代过程中误分类点的选择。训练集线性不可分,算法无法收敛,解决方法:使用核函数。无法解决异或问题Python代码实现:import numpy as npdef train(X_train,...原创 2019-05-28 11:30:23 · 426 阅读 · 0 评论 -
(李航统计方法学习)KNN的Python实现
K-NN(k-nearest neighbor)是一种基本分类与回归的方法。分类;模型:利用训练数据集对特征向量空间进行划分(有点决策树的意思)策略:惰性学习,应该是没有优化策略的算法:略k近邻的三个基本要素:k的选择,距离度量,分类决策规则(多数表决规则等价于经验风险最小)K近邻的缺点:数据量大,特征维度大的计算复杂度会很高(kd树存储结构)##K-NN实现##使用欧氏距离,...原创 2019-06-02 09:48:20 · 357 阅读 · 0 评论 -
(李航统计学习方法)逻辑回归
逻辑回归模型在面试的过程中,最常问到的就是公式的推导过程。所以,手撕公式,很重要。首先介绍的是逻辑斯蒂分布:X是连续随机变量,X服从逻辑斯蒂分布。逻辑斯蒂分布的分布函数与密度函数如下:二项逻辑斯蒂回归模型它是一种分类模型,由条件概率P(Y|X)表示,形式为参数化的 逻辑斯蒂分布。其中,exp为以e为底的指数函数,x∈Rn是输入,y∈{0,1}输出,w,b是模型参数——w是权值向量,b...原创 2019-06-13 15:13:27 · 1524 阅读 · 0 评论 -
(李航统计学习方法)决策树python实现
决策树是判别式模型,可以解决分类和回归问题。分类树对离散型变量做决策,回归树是对连续变量做决策;其在空间上表示,类似于在不同维度进行切分。决策树构建的三个部分:特征选择,决策树生成,剪枝ID3采用信息增益作为节点分裂选择特征的衡量标准,。熵的概念:源于香农信息论,用于刻画信息混乱程度的一种度量。公式:*Entropy=-p*logp信息增益=原数据集的经验熵-去条件经验熵python代...原创 2019-06-06 14:15:44 · 679 阅读 · 0 评论 -
(李航统计学习方法)SVM的python实现
支持向量机是一种二分类模型,基本模型是定义在特征空间的间隔最大的线性分类器。间隔最大化使它有别于感知机。模型:策略:间隔最大化,形式化为求解凸二次规划,等价于正则化的合页损失函数最小化算法:略...原创 2019-06-19 17:35:28 · 1270 阅读 · 0 评论 -
关于L0,L1,L2正则化
关于L0,L1,L2正则化原创 2019-07-10 19:23:51 · 305 阅读 · 0 评论 -
降维方法总结及python实现
为什么要降维?高维情形下,样本数据稀疏,距离计算困难。为什么能进行降维?收集的数据虽是高维但与学习任务密切相关的也许仅仅是某个低维分布无监督降维:PCA最大重构性:找到一个超平面使得样本点在这个超平面的投影尽量分开。PCA也可以看作是逐一筛选方差最大方向;对协方差矩阵XX^T特征分解,取最大特征值及其特征向量;在去掉该特征值以及特征向量后,继续取最大特征值;...原创 2019-06-25 11:11:33 · 4830 阅读 · 0 评论 -
(李航统计学习方法)提升方法
本文主要包括adaboost和提升树,后期会扩展到XGboost和LightGBM。boosting通过改变样本训练权重,学习多个弱分类器,最后进行线性组合,提高分类性能。两个着重点:如何改变数据的样本权重或概率分布 如何将弱分类器整合成强分类器Adaboost(Adaptiveboost)adaboost通过提高错误分类样本权重,使的下一轮错误数据由于上一轮调高权重,而受到弱分类的关注...原创 2019-06-24 15:20:13 · 389 阅读 · 0 评论 -
关于矩阵分解,SVD方面
非奇异矩阵也就是可逆矩阵假设A是一个n×nn\times nn×n维的矩阵,λ\lambdaλ为矩阵A的一个特征值,xxx为其对应的特征向量。假设AAA矩阵的n个特征值为λ1\lambda_1λ1,λ2\lambda_2λ2,λ3\lambda_3λ3…λn\lambda_nλn,这n个特征值对应的特征向量为w1w_1w1,w2w_2w2,w3w_3w3…wnw_nwn则矩阵A可...转载 2019-09-03 09:53:28 · 406 阅读 · 0 评论