经典算法
文章平均质量分 76
yuukilp
Full Of Curiosity
展开
-
KNN & NaiveBayes 分类算法
KNN介绍: KNN算法属于分类算法里比较简单而且思路明了的一种算法,所以这里就简单介绍一下它的主要思想及实现步骤: KNN算法全名为k-Nearest Neighbor,就是K最近邻的意思。KNN也是一种分类算法。但是与之前说的决策树分类算法相比,这个算法算是最简单的一个了。算法的主要过程为: 1、给定一个训练集数据,每个训练集数据都是已经分好类的。 2、设定一个初始的测原创 2016-12-12 17:11:02 · 762 阅读 · 0 评论 -
【生存分析】参数模型 - 加速失效(AFT)模型
加速失效(AFT)模型假设 TTT 为失效时间,xxx 为协变量,加速失效(accelerate failure time)模型的假设是,一个人的生存时间等于人群基准生存时间 * 这个人的加速因子,其数学形式如下:T=t∗eθ⋅x, t=eμ+σ∗WT=t * e^{\theta \cdot x},\ t=e^{\mu + \sigma*W}T=t∗eθ⋅x, t=eμ+σ...原创 2018-09-28 16:47:46 · 21921 阅读 · 9 评论 -
【降维方法】- 非负矩阵分解【NMF】
简介非负矩阵分解(Non-negative Matrix Factorization),作为一种非监督式的降维方法,其主要思想正如其名字描述的那样:将一个非负原始矩阵分解为两个非负矩阵的积(Vm ∗ n=Wm ∗ r⋅V′r ∗ nVm ∗ n=Wm ∗ r⋅Vr ∗ n′V...原创 2018-08-16 18:03:54 · 2872 阅读 · 0 评论 -
【降维方法】- 线性判别分析(LDA)
参考:refenrence简介线性判别分析(Linear Discriminant Analysis)作为一种监督式的降维方法,同时也用作分类器,它主要思想是:使得对原空间进行投影运算后,类间的样本点数据分布间隔大,而类内样本点数据分布方差小。原理有了上述思想后,我们尝试着自己一步步把这个思想具体化。最近在看《数据之旅》,王教授提到学习数学需要重要培养的一个能力:抽象能力。数学...原创 2018-08-14 11:33:14 · 1262 阅读 · 0 评论 -
【降维方法】- 主成分分析(PCA)
推荐一篇绝对好的文章:理解PCA的数学原理首先PCA设计严格的数学推导证明!尤其设计矩阵的知识比较多,这里会简要地记录自己学习过程中觉得很重要的东西,具体的细节可以看我上面推荐的一篇文章。简介 PCA(Principle Component Analysis)主成分分析,主要应用于数据降维。 当数据集的维度过高之后,运用各种算法处理起来的时间复杂度可能会很高,所以需要对数据进行降维处理原创 2017-03-27 16:57:10 · 1292 阅读 · 0 评论 -
随机森林
介绍在集成学习的算法中,分为两种,一种是boosting,它的特点是各个弱分类器之间有依赖关系,另外一种是Bagging,各个弱分类器之间无联系,可以并行拟合。随机森林,属于Bagging流派的算法,每个分类器之间没有依赖关系; 首先从样本集中有放回地随机采集固定个数的样本,这样,会导致已经被采集到的数据可能会被再次采集到,当然,也会存在某些样本不被采集到。OOB:袋外数据(out of bag)转载 2017-08-11 16:44:16 · 536 阅读 · 0 评论 -
海森矩阵及其应用
参考链接 :here,原文讲得到很详细。海森矩阵介绍及其在牛顿法中的应用转载 2017-04-20 09:59:48 · 13975 阅读 · 0 评论 -
回归
本文主要记录一下相关的概念…..Regression 之前研究过的一些通过监督学习解决的分类问题,都具有一个共同的特征,就是其输出的类别都是离散型变量。 当我们需要去预测的对象类型是连续类型的时候,该怎么去解决它呢? 回归分析作为其解决的方法之一,它也属于监督学习算法,但是是一种特定类型的监督学习,不同于分类。 最简单的例子就是线性回归(Linear Regress原创 2017-03-14 21:45:38 · 357 阅读 · 0 评论 -
More supervise learning Alg
之前提到过三种简单基础的监督学习算法,但是选择还有更多种:KNN(思路易于理解,熟悉其结合KD-tree来其优化算法的时间性能)ADAboostRandom Forests尝试使用scikit-learn来得到各类算法的准确度,与运行时间?原创 2017-03-10 16:20:59 · 429 阅读 · 0 评论 -
SVM支持向量机
SVM 支持向量机,用于向量空间的分类,属于数据挖掘中的分类算法。其过程就是接受训练数据(即有明确类标号的数据),构造其特征向量,对应在多维空间上的点,使用SVM算法找出一个最大边缘超平面,使得它的左右两侧分为两种不同的类别。这样就能够得到一个分类器。 线性可分:如二维空间中,可以找出一条直线,使得直线的上下两侧为两种不同的类别。 线性不可分:无法找到上述的直线,但是可以通过把这原创 2017-01-05 11:39:11 · 549 阅读 · 0 评论 -
决策树分类算法:ID3 & C4.5 & CART
分类的概念分类的基本任务就是根据给定的一系列属性集,最后去判别它属于的类型!比如我们现在需要去给动物分类,类别可选项为哺乳类,爬行类,鸟类,鱼类,或者两栖类。给你一些属性集如这个动物的体温,是否胎生,是否为水生动物,是否为飞行动物,是否有腿,是否冬眠。现在分类的基本任务就是,已知一个动物的属性集,判断或预测这个动物属于哪一种类别?决策树分类法简述从根节点开始,每个分支都会包含一个属性测试条件,用于分原创 2016-10-26 14:26:19 · 1168 阅读 · 0 评论 -
K-Means聚类算法
记录一下KMeans算法里一些主要的东西简介 K-Means是一种用来进行聚类分析的算法,用以得到每个数据所属的cluster。在给定的数据没有标签的情况下,由这种聚类分析算法得到每条数据的cluster,属于非监督式学习算法。 其主要步骤 分为: 1. assign 给每个点分配其所属中心点Cx(根据距离就近分配) 2. optimization 对于同一cl原创 2017-03-17 21:17:06 · 427 阅读 · 0 评论 -
贝叶斯网络(笔记)
贝叶斯定理 几个概念: 1. 条件概率:P(A|B)=P(A⋂B)P(B)P(A|B) = \frac{P(A\bigcap B)}{P(B)},指在事件B发生的条件下A发生的概率。 2. 联合概率:即A B同时发生的概率,即P(A,B)=P(A⋂B)=P(A|B)∗P(B)=P(B|A)∗P(A)P(A,B) = P(A\bigcap B) =P(A|B) * P(B) = P(B原创 2017-01-05 11:18:36 · 2283 阅读 · 0 评论 -
【推荐算法】协同过滤算法 - 简记
1. 前言在现今的推荐技术和算法中,基于协同过滤(Collaborative Filtering)的推荐方法是最被大家广泛认可和采用的。推荐算法用于给用户做出合适的内容推荐,其场景用途非常广泛,最常见的包括音乐歌单推荐,购物商品推荐,新闻头条推荐等等。推荐算法大致被分为三种:基于内容的推荐算法协同过滤推荐算法基于知识的推荐算法实际应用中的推荐算法一定是基于多种考虑的,不会只考虑单独...原创 2018-11-15 17:29:02 · 383 阅读 · 0 评论