- 博客(19)
- 收藏
- 关注
转载 Conda install Graphviz
参考:https://stackoverflow.com/questions/42014458/dask-not-installing-graphviz-dependency#conda install -c conda-forge graphvizconda install -c conda-forge python-graphvizThis comment explain...
2018-11-08 11:43:00 1036
转载 Sentence Embedding
通用型单句Embedding词向量平均词向量乘上词权重后进行累加综合考虑词频、词向量矩阵分解http://www.hankcs.com/nlp/cs224n-sentence-embeddings.html类似word2vec训练sentence2vecDistributed Representations of Sentences and Doc...
2018-09-10 20:04:00 224
转载 LSTM
LSTM公式推导:https://blog.csdn.net/u010754290/article/details/47167979https://blog.csdn.net/xuanyuansen/article/details/61913886https://www.jianshu.com/p/dcec3f07d3b5理解LSTM:https:...
2018-09-07 14:38:00 111
转载 文本相似度计算
http://www.sohu.com/a/220353074_744545编辑距离相似度:Edit Distance Similarity编辑距离的作用主要是用来比较两个字符串的相似度的。编辑操作只有三种:插入,删除,替换。对两个字符串,将其中一个字符串经过上面的这三种操作之后,得和另外一个完全相同的字符串付出的代价就是编辑距离。例如: 如果str1=”html”,st...
2018-08-27 20:16:00 211
转载 核函数
常见的核函数:线性核函数:K(xi, xj)=xiTxj多项式核函数:K(xi, xj)=(ϒxiTxj+r)d, ϒ > 0径向基函数(Radial Basis Function,RBF):K(xi, xj)=exp(-ϒ||xi-xj||2), ϒ > 0sigmod :K(xi, xj)=tanh(ϒxiTxj+r)所谓径向基函数 (Radial ...
2015-01-28 11:07:00 401
转载 RRC聚类算法
(原创文章,转载请注明出处!)RRC(recursive rectangular clustering)的基本思想是通过递归的对包含所有样本点的局域进行矩形分割来达到对数据聚类的目的。算法来至文章Eigentaste: A Constant Time Collaborative Filtering Algorithm。算法步骤(以二维空间为例):1. 确定将所有样本点包含在内...
2014-10-13 11:08:00 231
转载 推荐系统(五)
(原创文章,转载请注明出处!)协同过滤算法(Collaborative Filtering)基于的根据是,类似的人会喜好类似的物品。如果将用户进行聚类,当来了新用户,将新用户归到相应的类,用类的评分结果来形成新用户的推荐结果。在文章 Collaborative Filtering Based on Iterative Principal Component Analysis 中给出了...
2014-10-09 17:50:00 103
转载 推荐系统(四)
(原创文章,转载请注明出处!)用户对物品的推荐数据通常形成一个巨大的矩阵,而且通常用户的数量比物品的数量多,可以通过SVD(奇异值分解)来将矩阵分解,减少计算中使用的数据量,降低计算的复杂度。假设数据R是m x n矩阵,m个用户,n个物品,通过奇异值分解,R=U∑VT。那么将R投影到低维的k(k < min(m,n))空间:Rk=RTUk∑k,RT是R的转置 n x m矩阵, ...
2014-10-09 09:50:00 124
转载 推荐系统(三)
(原创文章,转载请注明出处!)推荐系统关注的是人与物品,希望预测出人对物品的喜欢程度。不同的人有相近的喜好(比如:都喜欢武侠小说),不同的物品有相近的特征(比如:都是武侠小说)。当想预测一个用户A对其还没有评价的的物品T的评分时,可以从两个角度来考虑:找和用户A有相近喜欢的人,通过他们对物品T的评分,来估计用户A对物品T的评分;另外一个角度是用户A已经评价过的物品,看看哪些物品与物品...
2014-09-15 22:46:00 135
转载 推荐系统(二)
(原创文章,转载请注明出处!)一、问题实现对电影的推荐,数据集中有约1600部电影,有约900个用户对这些电影进行了评价。设每个电影有10个特征,根据推荐系统(一)描述的算法,每个用户也相应的有10的参数,那么总的参数个数 ≈ 1600 * 10 + 900 * 10 ≈ 16000 + 9000 ≈25000 个。电影评价的数据集可以访问链接:http://grouplens...
2014-09-10 23:03:00 127
转载 应用高斯分布来解决异常检测问题(三)
(原创文章,转载请注明出处!)本篇来解决一个异常检测问题。样本数据约300个,无标签的二维数据。此外,还有一个有标签的验证数据集,包含约300个样本。一、将每个维度数据的直方图plot出来1 hist(X[,1], breaks=seq(from=floor(min(X[,1])),to=ceiling(max(X[,1])),by=0.3), freq=TRUE, co...
2014-09-06 15:16:00 367
转载 应用高斯分布来解决异常检测问题(二)
(原创文章,转载请注明出处!)在文章应用高斯分布来解决异常检测问题(一)中对如何使用高斯分布来解决异常检测问题进行了描述,本篇是使用R编程实现了第一篇中所描述的两个模型:多个一元高斯分布模型和一个多元高斯分布模型。一、 多个一元高斯分布模型 1 ## parameters: 2 ## xNew - a vector, which is the data o...
2014-09-06 13:50:00 193
转载 应用高斯分布来解决异常检测问题(一)
(原创文章,转载请注明出处!)异常检测的样本数据,可能有标签,但通常正常状况的样本很多,异常状况的样本很少,并且出异常的原因通常也不尽相同。所以,可以只针对正常状况的样本建模。而如果收集到一堆的数据没有标签,则可以对所有的样本数据用一个模型建模,因为通常数据中异常状况的样本很少,对最终模型的影响很小。通常样本数据是多维的,所在使用高斯分布来建模的时候,可以分别对每一维使用一个...
2014-09-03 17:36:00 314
转载 高斯(正态)分布、GDA、Mixtures of Gaussian
(原创文章,转载请注明出处!)高斯分布的密度函数一元高斯分布:p(x;μ,σ2)=(1/{sqrt(2π)*σ}) * exp{-(x-μ)2/(2σ2)}期望:E(X) = μ;方差:D(X) = σ2二元高斯分布:p(x1,x2;μ1,μ2,σ12,σ22)={ 1 / [2π*σ1σ2*sqrt(1-ρ2)] } * exp{ [(...
2014-09-01 09:21:00 307
转载 主成分分析
(原创文章,转载请注明出处!)一、主成分分析的作用主成分分析(PCA)是通过一些方法将高维的训练数据映射到低维,起到一个训练数据降维的作用。这样一方面能消除训练数据中冗余特征,另一方面能提升训练算法的运行效率,还能减少对存储资源的占用;如果是降维到2D或者3D,还能用2D、3D的展示技术将数据显示出来,方便分析。主成分分析这么多的好处,那是不是时时处处都要使用它?答案...
2014-08-16 09:51:00 226
转载 logistic回归
(原创文章,转载请注明出处!)用logistic回归来解决分类问题。模型的值域是[0,1],用0.5作为分类的阈值。模型的输出是:P(y=1|x;θ),即:对给定的输入x,和确定的参数θ,事件“y=1”的概率。那么可以选择sigmoid函数: 1/(1+e-z) ,z∈R,值域为[0,1],在logistic回归中 z=θTx。(也可以选择其他函数)即: P(y=1...
2014-08-07 22:36:00 128
转载 推荐系统(一)
(原创文章,转载请注明出处!)如何给用户自动的推荐产品?比如推荐书。让用户给他看过的书打分,比如: 0、1、2、3、4、5分。用户可以有很多个,书也可以有很多本不同的。用户给书打分就形成了一个二维表格:用户A用户B用户C用户D用户E小说151442小说24144?小...
2014-08-07 21:59:00 110
转载 基于朴素贝叶斯模型的文本分类
(原创文章,转载请注明出处!)一、朴素贝叶斯模型模型一:将一个文本文档使用一个词的向量来表示。通常文档中出现的词的个数是有限的,假设要将文档分成两类(类别0、1),分类的所有文档可能出现100个词(词典中词的个数,在实际应用中,选择训练文档中出现次数最多的n个词,n从10000到50000),那么一个特定的文档就可以用一个100维的向量来表示。每一维上要么是0,要么是1...
2014-08-07 21:53:00 281
转载 K均值聚类算法
(原创文章,转载请注明出处!)一、K均值聚类算法K均值聚类的训练数据是向量,假设样本点是三维向量,它们没有类别标示。所以,第一步: 要确定聚类中心的个数,比如:3个;然后初始化聚类中心,比如:μ1、μ2、μ3。第二步: 计算训练数据中的每一个样本点到分别到这三个聚类中心的距离||x-μ1||2, 对一个样本点,比较三个距离值,到哪一个聚类中心距离...
2014-08-07 21:33:00 276
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人