datamining
文章平均质量分 72
july_2
这个作者很懒,什么都没留下…
展开
-
文本分类与文本聚类的区别
简单点说:分类是将一片文章或文本自动识别出来,按照先验的类别进行匹配,确定。聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术。分类和聚类都是将相似对象归类的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程转载 2012-08-09 11:54:20 · 1954 阅读 · 0 评论 -
数据点间距离公式
令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距离(Euclidean distance)-EuclideanDistanceMeasure.相当于高维空间内向量说表示的点到点之间的距离。由于特征向量的各分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关,比如对身高(cm)和体重(kg)两个单转载 2014-01-20 17:14:35 · 2589 阅读 · 0 评论 -
Jaccard相似度和广义Jaccard相似度
1. 狭义Jaccard相似度,计算两个集合之间的相似程度,元素的“取值”为0或1对集合A和B,Jaccard相似度计算如下:Jaccard(A, B)= |A intersect B| / |A union B|相似度数值在[0, 1]之间,当A==B的时候,为1. 优缺点,就是元素的取值只能是0或者1,无法利用更丰富的信息。由相似度,可以转换成J转载 2014-01-16 11:24:43 · 16517 阅读 · 0 评论 -
汉明距离
汉明距离是以理查德·卫斯里·汉明的名字命名的。在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。 For example: 例如: The Hamming distance between 1011101 and 1001001 is 2. The H转载 2014-01-15 14:36:51 · 8597 阅读 · 0 评论 -
simhash算法的原理
第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对转载 2014-01-15 14:25:01 · 884 阅读 · 0 评论 -
LDA模型学习之贝叶斯公式
近几天在学习LDA模型。真的是让人纠结!都看了两天了,不知所云!看到网上一大牛说:“其实这个模型不难理解”真的想吐血!想想也释然了:好歹也比我多读了八年书嘛!八年,日本鬼子也搞定了,别说一个小小的模型。 好了,抱怨一下也就可以了,模型还是得研究的! 从贝叶斯开始吧! 把已经出尘脱俗的《概率论》翻出来,好好看了一个上午:感觉不难理解。转载 2013-10-18 10:58:32 · 5846 阅读 · 0 评论 -
回归(regression)、梯度下降(gradient descent)
回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说w转载 2013-10-29 17:27:35 · 673 阅读 · 0 评论 -
浅谈语义主题计算
摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。转载 2013-10-18 11:46:56 · 2000 阅读 · 0 评论 -
LDA主题聚类学习小结
LDA主题聚类学习小结0人收藏此文章, 我要收藏发表于13天前(2013-10-01 21:40) , 已有37次阅读 ,共0个评论目录:[ - ]LDA模型算法简介:LDA模型构建原理:Unigram Model(词袋模型):Bayes Unigram Model(贝叶斯词袋模型)PLSA潜在语义分析LDA主题聚类模型LDA 算法设计转载 2013-10-14 15:49:07 · 17507 阅读 · 2 评论 -
十道海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多转载 2013-08-16 16:46:14 · 609 阅读 · 0 评论 -
tf-idf详解
f-idf目录简介原理举例应用理论假设模型概率展开简介原理举例应用理论假设模型概率展开编辑本段简介TF-IDF[1](term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用转载 2013-08-01 10:02:22 · 3100 阅读 · 0 评论 -
Canopy算法原理
(1)、将数据集向量化得到一个list后放入内存,选择两个距离阈值:T1和T2,其中T1 > T2,对应上图,实线圈为T1,虚线圈为T2,T1和T2的值可以用交叉校验来确定; (2)、从list中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy,则把点P作为一个Canopy),如果点P与某个Canopy距离在T1以内,则将点P加入到转载 2013-05-09 14:29:55 · 4015 阅读 · 0 评论 -
主题模型-LDA
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会转载 2013-05-14 11:21:15 · 893 阅读 · 0 评论 -
机器学习中的相似性度量 (多种几何距离定义)
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧转载 2013-05-10 15:32:06 · 803 阅读 · 0 评论 -
k-means 算法原理
基本简介k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。编辑本段处理流程k-means 算法基本步骤(1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心;(2)转载 2013-05-09 09:54:42 · 1026 阅读 · 0 评论 -
文本相似度算法
1.信息检索中的重要发明TF-IDF1.1TFTerm frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频。1.2IDFInverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式(公式1.2-1)转载 2013-05-08 14:49:37 · 985 阅读 · 0 评论 -
推荐算法比较
什么样的产品适合推荐 1. 多样性(物品足够多,用户无法一一查看)2. 口味重要(用户口味各异,物品长尾显著,靠热门排行榜推荐无法解决)3. 纯粹性(单一物品相关属性不太复杂,利于精准推荐)4. 大众产品(用户多,规模化,利于推荐)5. 时效性较低(时效性过高则产品更新快,如新闻推荐,推荐数据需要不断更新)6. 容易反馈(推荐引擎需要根据用户反馈结果转载 2013-03-26 16:28:33 · 808 阅读 · 0 评论 -
聚类分析学习
1.聚类簇的定义依赖于数据的特性和期望的结果。原创 2014-03-07 14:30:24 · 590 阅读 · 0 评论