- 博客(7)
- 资源 (4)
- 问答 (3)
- 收藏
- 关注
转载 LDA
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(docum
2016-03-07 16:31:07 497
转载 二叉树
如何判断一棵树是否为二叉排序树? 二叉查找树(Binary Search Tree),也称有序二叉树(ordered binary tree),排序二叉树(sorted binary tree),是指一棵空树或者具有下列性质的二叉树:若任意节点的左子树不空,则左子树上所有结点的值均小于它的根结点的值;若任意节点的右子树不空,则右子树上所有结点的值均大于它的根结点的值;任意节点的左、右子树也
2016-03-07 15:37:49 258
原创 word2vec简介
是什么? 谷歌开源的一款基于Deep Learning的学习工具——word2vec,word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。什么用? 1. 将词转换成向量。 2. 向量的余玄夹角可以近似表示两个词得相识度(求近义词)。怎么用? 1. 将工具word2vec放入linux下,进入工
2016-03-05 19:57:44 667
转载 正确率 召回率 F值
正确率 = 正确识别的个体总数 / 识别出的个体总数 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。Seaeagle撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下: 正确率
2016-03-05 10:54:53 518
原创 邻近算法KNN
是什么? (kNN,k-NearestNeighbor)是一个无监督的机器学习分类算法所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
2016-03-05 10:13:15 764
原创 支持向量机SVM
是什么?支持向量机SVM(Support Vector Machine)是一个有监督的学习模型。 SVM的主要思想可以概括为两点: ⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而 使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能; ⑵它基于结构风险最小化理论之上在特征空间中建构最优
2016-03-04 23:12:03 1020
原创 推荐算法
推荐算法大致可以分为三类:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。重点内容基于物品的协同过滤和内容过滤有什么区别? 基于物强调内容品的协同过滤,首先从数据库里获取他之前喜欢的东西,然后从剩下的物品中找到和他历史兴趣近似的物品推荐给他。核心是要计算两个物品的相似度。内容过滤的基本思想是,给用户推荐和他们之前喜欢的物品在内容上相似的其他物品。核心任务就是计算物品的内容相似度协同过滤推
2016-03-04 21:45:30 535
jupyterhub.pdf
2016-10-28
spark ansj分词 报错数组越界
2016-12-17
把RDD存入文件,得到的文件内容如下,如何才能正确存入RDD的内容?
2016-12-17
win8下安装theano报错
2015-10-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人