Algorithm
文章平均质量分 75
GeekStuff
I will be posting instruction guides, how-tos, troubleshooting tips.
展开
-
词的分布表示
词的表示One-hot Representation(独热表示) “苹果”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …] 优点:简介,缺点:词之间是孤立的,维数灾难。Distributional Representation(分布式表示) 词向量或者词嵌入(word embedding)是用一个向量来表示一个词,一定程度上可以用来刻画词之间的语义距离。 给原创 2016-10-29 18:00:41 · 13647 阅读 · 3 评论 -
推荐系统----Content-based Systems
推荐系统的关键问题 基于内容的推荐原创 2014-10-26 12:58:28 · 1330 阅读 · 0 评论 -
推荐系统----Collaborative Filtering
Collaborative Filtering Item-Item Collaborative Filtering Mining Massive Datasets原创 2014-10-26 13:03:35 · 1441 阅读 · 0 评论 -
数据降维
译文七大数据降维算法原文7 Machine Learning techniques for Dimensionality Reduction原创 2015-09-23 20:34:09 · 1217 阅读 · 0 评论 -
矩阵的秩与行列式的几何意义
这里首先讨论一个长期以来困惑工科甚至物理系学生的一个数学问题,即,究竟什么是面积,以及面积的高维推广(体积等)? 1 关于面积:一种映射大家会说,面积,不就是长乘以宽么,其实不然。我们首先明确,这里所讨论的面积,是欧几里得空间几何面积的基本单位:平行四边形的面积。平行四边形面积的定义,几何上说是相邻两边边长乘以他们之间的夹角的正弦。转载 2013-04-03 19:38:37 · 2864 阅读 · 2 评论 -
线性判别分析LDA
PCA的降维过程中,非线性结构特征不能被有效的提取。所以,选择主成分的时候不但要保证样本中信息不丢失,还要考虑主成分的描述判别效果;此外,PCA并没有利用样本点之间的类别信息,故不能使其分类达到最优化。线性判别分析(Linear Discriminant Analysis,LDA),也称为Fisher线性判别,是模式识别的经典算法。它最早由Fisher提出,基本思想是寻原创 2015-04-17 21:28:33 · 1815 阅读 · 0 评论 -
VSM模型与TF-IDF权重
VSM模型向量空间模型(VSM,Vector Space Model)由Gerard Salton和McGill等在1969年提出。该模型将文本内容转换为易于数学处理的向量形式,并表示为多维空间中的一个点,把对文本内容的处理简化为向量空间中向量运算,使问题的复杂度大为降低使得各种相似计算和排序成为可能。在向量空间模型中,文本空间被看作是由一组正交词条矢量所组成的矢量空问,每篇文本d表示为其原创 2014-11-18 18:33:02 · 8785 阅读 · 0 评论 -
ARIMA模型
时间序列分析分为两大类:频域分析和时域分析。频域分析也称为谱分析,是一种非常有用的纵向数据分析方法。时域分析主要关心从序列值之间的相关关系对时间序列发展规律。在时域分析里,生成时间序列数据的随机过程按照统计规律的特征是否随着时间变化而变化分为两类,如果随机过程的特征随着时间变化,如GDP的时间序列一般随着时间稳定增长,则此过程是非平稳的;相反,如果随机过程的特征不随时间而变化,如每年相同季原创 2015-06-02 09:09:27 · 43981 阅读 · 0 评论 -
社区发现算法(三)
派系过滤CPM方法(clique percolation method)用于发现重叠社区,派系(clique)是任意两点都相连的顶点的集合,即完全子图。在社区内部节点之间连接密切,边密度高,容易形成派系(clique)。因此,社区内部的边有较大可能形成大的完全子图,而社区之间的边却几乎不可能形成较大的完全子图,从而可以通过找出网络中的派系来发现社区。k-派系表示网络中含有k个节原创 2015-05-18 15:58:33 · 21897 阅读 · 7 评论 -
三元闭包与强弱联系
美国斯坦福大学教授Granovetter的The strength of weak ties论文提出了弱联结理论, 该理论认为:弱联结比强连接更能穿越不同的社会群体,因此能触及更多的人,穿过更大的社会距离。Granovetter发现多数人是通过私人关系介绍找到现在工作的,值得注意的是,这里的私人关系往往只是熟人(acquaintances),而非亲密朋友(close friends)。问题:为什么是一般熟人(acquaintances),而非亲密朋友(close friends)?原创 2014-12-07 10:21:24 · 11152 阅读 · 1 评论 -
网络模型特征
网络的无尺度(scale-free)网络的“小世界”(small world)网络的可导航(navagate)原创 2014-12-04 20:56:43 · 1491 阅读 · 0 评论 -
推荐系统----Latent Factor Models
The Netflix Prize BellKor Recommendation System原创 2014-10-26 13:06:33 · 4723 阅读 · 0 评论 -
浅谈BP(Back-propagation)算法
BP的核心思想:将输出误差以某种形式通过隐层向输入层逐层反传,这里的某种形式其实就是"信号的正向传播和误差的反向传播"的过程。信息正向传播:输入层 -----> 隐含层 ----> 输出层 误差方向传播:误差以某种形式在各层表示 ----> 修正各层单元的权值原创 2014-09-22 10:12:52 · 4328 阅读 · 0 评论 -
GBDT(Gradient Boost Decision Tree)
GBDT,叫法比较多,如Treelink、 GBRT(Gradient Boost Regression Tree)、Tree Net、MART(Multiple Additive Regression Tree)等。GBDT是决策树中的回归树,决策树分为回归树和分类树。GBDT可以用来做分类、回归。GBDT由多棵决策树构成,通常都是上百棵树,而且每棵树规模都较小(即树的深度会比较浅)。模型预测的原创 2015-09-13 15:00:46 · 9044 阅读 · 1 评论 -
K-means和K-medoids
K-means算法通过计算一类记录的均值来代表该类,但是受异常值或极端值的影响比较大。和K-means比较相似另一种算法K-medoids,它通过中心点的迭代轮换及最小化类内差异完成数据对象聚类。首先随机初始中心,然后将其余对象分配给最近的簇; 在反复用非中心点来替代中心点后重复分配过程,以提高聚类质量至聚类质量不再变化。而在K-means中,我们将中心点取为当前cluster中所有数据点的平均值原创 2014-07-02 09:51:59 · 3887 阅读 · 2 评论 -
支持向量机SVM学习笔记
SVM 核心思想1. Define an optimal hyperplane: maximize margin2. Extend the above definition for non-linearly separable problems: have a penalty term for misclassifications.3. Map data to h原创 2014-10-20 14:00:26 · 3848 阅读 · 4 评论 -
EM算法学习笔记
EM is typically used to compute maximum likelihood estimates given incomplete原创 2016-01-11 08:59:57 · 1622 阅读 · 0 评论 -
团、极大团和最大团
对于给定图G=(V,E)。其中,V={1,…,n}是图G的顶点集,E是图G的边集。图G的团就是一个两两之间有边的顶点集合。简单地说,团是G的一个完全子图。如果一个团不被其他任一团所包含,即它不是其他任一团的真子集,则称该团为图G的极大团(maximal clique),即极大团是增加任一顶点都不再符合团定义的团,也就是说,极大团不能被任何一个更大的团所包含。顶点最多的极大团,称之为图G的最大团(m原创 2014-11-03 09:26:04 · 16473 阅读 · 0 评论 -
随机梯度下降与批量梯度下降
线性回归算法属于监督学习的一种,主要用于模型为连续函数的数值预测。主要步骤初步建模后,通过训练集合确定模型参数,得到最终预测函数,这样就可以通过输入自变量便得到预测值,下面给出详细过程: 建立模型根据训练集的数据特点创建假设函数,创建如下基本线性函数: 其中:x:特征值h(x):假设函数n:自变量个数,即特征值数量 确定代价函数为了让假设函数更好的拟原创 2014-09-23 10:45:12 · 3373 阅读 · 0 评论 -
贝叶斯分类学习笔记
Bayes’ RuleFrequency TablesFrequency TablesPredictor ProbabilityTarget ProbabilityPosterior Probability原创 2015-04-17 14:34:48 · 990 阅读 · 0 评论 -
置信度传播算法(Belief Propagation)
置信度传播算法利用结点与结点之间相互传递信息而更新当前整个MRF的标记状态,是基于MRF的一种近似计算。该算法是一种迭代的方法,可以解决概率图模型概率推断问题,而且所有信息的传播可以并行实现。经过多次迭代后,所有结点的信度不再发生变化,就称此时每一个结点的标记即为最优标记,MRF也达到了收敛状态。对于无环环路的MRF,BP算法可以收敛到其最优解。原创 2014-11-06 16:11:30 · 54450 阅读 · 39 评论 -
集成学习——Boosting和Bagging
Boosting算法Boosting算法指将弱学习算法组合成强学习算法,它的思想起源于Valiant提出的PAC(Probably Approximately Correct)学习模型。基本思想:不同的训练集是通过调整每个样本对应的权重实现的,不同的权重对应不同的样本分布。1. 首先赋予每个训练样本相同的初始化权重,在此训练样本分布下训练出一个弱分类器;原创 2015-04-12 20:05:18 · 5207 阅读 · 0 评论 -
社区划分的标准--模块度
在社区发现算法中,几乎不可能先确定社区的数目,于是,必须有一种度量的方法,可以在计算的过程中衡量每一个结果是不是相对最佳的结果。原创 2015-05-08 11:17:32 · 49899 阅读 · 2 评论 -
网络描述和随机图模型
现实世界中的网络都是稀疏的,即k << N – 1,那么邻接矩阵中绝大多是为0,。(矩阵的密度为E/N2)。 如何度量网络?即网络的特征是什么?1 度的分布随机选择一个节点,它的度为k,然后统计度为k的节点个数Nk,然后归一化直方图:P(k) = Nk / N 2 路径长度网络直径:对于图中任意节点之间的最大距离。路径的平均长度(连通图或者连通分量):hij为节点i到节点j之间的距离。 3 聚集度原创 2014-12-05 09:13:16 · 6811 阅读 · 0 评论 -
个性化的PageRank和主题感知的PageRank
PageRank算法最初是用于计算Web中网页的权威值 (或重要性)。PageRank算法认为一个网页的权威值可以通过网络的链接结构来传递,在Web的链接图中,如果存在一个页面q指向另一个页面p的链接,则表明q对p的认可(vote),即q将自己的权威值部分传递给了P。因此,一方面,指向一个页面p的页面越多,则该页面得到的权威值越高;另一方面,指向页面p的页面,如g,自身的权威值越高,则p得到的权威原创 2014-11-06 09:24:34 · 10501 阅读 · 0 评论 -
p-稳定E2LSH
LSH算法的基本思想就是用随机的哈希函数值保证相似的数据点以很高的概率发生冲突而能够被检测到。最初的LSH应用在汉明空间,后来将其扩展到欧氏空间。欧氏局部敏感哈希(E2LSH)继承了原始LSH的两个特性:第一是它很适合于维数高但稀疏的数据点,如图像特征;第二是如果数据满足一定的有界增长特性,它就可以很快地找到精确的近邻。 E2LSH是基于p-稳定分布的,它使用哈希函数将数据库中的矢量点投影原创 2014-11-21 14:58:28 · 5311 阅读 · 1 评论 -
LSH技术---Finding Similar Items
承接上一篇博客,我们使用minhash压缩内容量较大的文档,但是文档相互之间的相似性计算仍然比较麻烦,因为两两之间的文档pairs太多了。有时候我们只需要最相似的文档pairs,没有必要计算所有pairs,为此我们引入LSH(locality-sensitive hashing)技术。 LSH的基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射后,这两个数据点在新的数据空间中仍然相原创 2014-11-19 17:49:40 · 3003 阅读 · 2 评论 -
k-shingles与minhash技术
对于web网页去重的应用,如抄袭、镜像等,通过将网页表示为字符k-grams(或者k-shingles)的集合,把网页去重的问题转化为找到这些集合的交集。使用传统的方法存储这些巨大的集合以及计算它们之间的相似性显然是不够的,为此,对集合按某种方式进行压缩,利用压缩后的集合推断原来集合的相似性。 Jaccard相似性:只关注集合之间的交集大小。集合S和T的Jaccard相似性定义如下:原创 2014-11-19 17:46:40 · 9861 阅读 · 0 评论 -
HITS算法及原理
HITS(Hyperlink—Induced Topic Search)算法主要思想:根据网页的入度与出度来衡量一个网页的重要性的,其中网页的入度指的是指向这个网页的超链接。而出度则是指的这个网页指向其他网页的超链接。如果一个网页具有很高的重要性,那么这个网页所指向的其他网页也具有较高的重要性,同时如果这个重要性高的网页被其他的网页所指,那么指向这个网页的其他网页也具有着较高的重要性。原创 2014-12-03 14:43:59 · 7292 阅读 · 2 评论 -
关联规则(Association Rules)
A-Priori 算法 Frequent Itemset原创 2014-10-21 12:43:45 · 2863 阅读 · 2 评论 -
社区发现算法(一)
图分割方法大多是基于迭代二分法的,基本思想是将图分割成两个子图,然后迭代,最后得出要求的子图数。经典的算法有Kernighan-Lin算法和谱二分算法。原创 2015-05-08 20:24:42 · 12003 阅读 · 1 评论 -
社区发现算法(四)
标签传播算法基本思想是通过标记节点的标签信息预测未标记节点的标签情况。节点之间的标签传播主要依照标签相似度进行,在传播过程中,未标记的节点根据邻接点的标签情况来迭代更新自身的标签信息,如果其邻接点与其相似度越相近,则表示对其所标注的影响权值就越大,邻接点的标签就更容易进行传播。基于标签传播的非重叠社区发现算法LPALPA主要思想是起初每个节点拥有独立的标签,那么网络中有n不同标原创 2015-05-28 20:04:31 · 12026 阅读 · 0 评论 -
非负矩阵分解NMF
非负矩阵分解(NMF):给定非负矩阵V(n * m)及正整数k 由于矩阵W和H的非负限制,NMF 可以看成是非负数据的线性相叠加。W的每一列可以看成是基向量,则原始矩阵V 为向量W的线性叠加,而矩阵 H 为叠加的稀疏矩阵。 非负矩阵分解算法的损失函数交替最小二乘(ALS)分解矩阵的大致步骤如下:(1)用一个非负矩阵初始化矩阵H(2)重复下原创 2015-04-21 16:36:36 · 4963 阅读 · 0 评论 -
数据降维--SVD&CUR
矩阵的秩秩即维度SVD使用SVD降维SVD示例CUR分解SVD和CUR比较原创 2014-10-19 18:18:40 · 4603 阅读 · 0 评论 -
社区发现算法(二)
GN算法本算法的具体内容请参考Finding and evaluating community structure in networks(Newman and Girvan)。重要概念边介数(betweenness):网络中任意两个节点通过此边的最短路径的数目。GN算法的思想:在一个网络之中,通过社区内部的边的最短路径相对较少,而通过社区之间的边的最短路径的数原创 2015-05-09 10:17:00 · 35409 阅读 · 3 评论 -
浅谈PCA算法
PCA(Principal Component Analysis)是一种数据分析方法,它通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量,常用于高维数据的降维。降低数据的维度是非常有用的,如我们看到数据的分布仅限于2维或者3维,低维数据可以在数值算法中明显减少运行时间,而且许多统计模型存在协变量的高度相关,PCA就可以产生不相关协变量的线性组合。PCA的思想是将原创 2014-10-02 18:40:03 · 13118 阅读 · 0 评论 -
矩阵分解
Eigen/diagonal Decomposition Symmetric Eigen Decomposition原创 2014-08-21 09:28:43 · 1517 阅读 · 2 评论 -
谱聚类(Spectral Clustering)算法
谱聚类算法由于其算法流程简单、计算简洁与 Kmeans 算法相比不容易陷入局部最优解,能够对高维度、非常规分布的数据进行聚类。谱聚类算法是利用图谱理论来进行算法分析,思想是把数据分析问题看成是图的最优分割问题,将数据样本看成是各个数据点,然后将数据点描绘成一个图表,根据图表关系计算出相应的相似矩阵,找到一种最优分割方法计算出相似矩阵的最小特征向量,最后利用相应算法得出最后的聚类结果。原创 2014-12-03 17:36:50 · 6073 阅读 · 1 评论 -
TrustRank算法
TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank 可以翻译为“信任指数”。TrustRank算法是应对轻易操纵Google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据,页面的TrustRank用来评价其是否具有真正权威性。TrustRank用以将来自Spam的链接与优质内容带来的真正意义上的好评区别开来。原创 2014-11-08 20:16:30 · 11192 阅读 · 2 评论 -
图的Laplacian矩阵
设G=<V,E>是一个n阶无向简单(无环,无多重边)图,其顶点集和边集分别记为V=V(G)={v1,v2,…vn}和E=E(G)={el,e2,…,en),我们用如下方式刻画图的Laplacian矩阵:原创 2014-12-04 10:18:38 · 5311 阅读 · 0 评论