2012年08月_天天向上的金牛

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载感悟、资产和幸福感

感悟、资产和幸福感随着阅历的加深，我关注的事物和接受的知识也在不断地发生着变化。大学毕业已经四年了，过去的半年中，我接触了一些看似不连贯的信息，因为觉得它们有用，就把这些信息全部记在了脑子中。直到最近，才发现一个片段正在解释和说明着另一个片段，而当我把这些片段信息串起来思考的时候，忽然有了一种开朗的感觉。我有一个习惯，就是当我感悟到一些东西的时候就把它写下来，因为在记录的过程中，我也会

2012-08-31 13:10:28 7443

转载 I/O多路复用

I/O多路复用之selectselect的功能可以用一句话来描述：实现基于I/O多路复用的异步并发编程。在具体讲解select之前我们先看看常规的阻塞socket编程方式，以服务端为例：对于这种方式，最大的问题在哪里呢？accept和recev的阻塞调用！下面以两种场景为例，来说明相比这种情况，select是如何做到异步I/O多路复用的高

2012-08-31 11:59:40 8823

说到文本相似性计算，大家首先想到的应该是使用向量空间模型VSM（Vector Space Model）。使用VSM计算相似度，先对文本进行分词，然后建立文本向量，把相似度的计算转换成某种特征向量距离的计算，比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题：需要对文本两两进行相似度比较，无法扩展到海量文本的处理。想想像Google这种全网搜索引擎，收录了上百亿的网页，爬虫每天

2012-08-31 11:46:41 12005

转载 MinHash算法

1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出，最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。2.Jaccard index 在介绍MinHash之前，我们先介绍下Jaccard index。 Jaccard

2012-08-31 11:45:47 12343

转载基于hash方法的相似计算

3 基于hash方法的相似计算基于hash的相似度计算方法，是一种基于概率的高维度数据的维度削减的方法，主要用于大规模数据的压缩与实时或者快速的计算场景下，基于hash方法的相似度计算经常用于高维度大数据量的情况下，将利用原始信息不可存储与计算的问题转化为映射空间的可存储计算问题，在海量文本重复性判断方面，近似文本查询方面有比较多的应用，google的网页去重[1]，goog

2012-08-31 11:44:55 8513

转载 Jaccard相似度、minHash、Locality-Sensitive Hashing(LSH)

在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索引擎要避免非常相似的文档出现在结果的前几页，再比如很多网站上都有的“查找与你口味相似的用户”、“你可能喜欢什么什么”之类的功能。后者其实是很大的一块叫做“协同过滤”的研究领域，留待以后详谈。首先我们定义两个集合S,T的Jaccard相似度: Sim(S,T) = |S,T的交集| / |S,T的并集|。直观上就容易感觉出这是一个很简单而

2012-08-30 18:10:29 17673

牛顿迭代法

非线性方程（或方程组）问题可以描述为求 x 使得f(x) = 0。在求解非线性方程的方法中，牛顿迭代法是求非线性方程（非线性方程组）数值解的一种重要的方法。牛顿是微积分创立者之一，微积分理论本质上是立足于对世界的这种认识：很多物理规律在微观上是线性的。近几百年来，这种局部线性化方法取得了辉煌成功，大到行星轨道计算，小到机械部件设计。牛顿迭代法正是将局部线性化的方法用于求解方程。

2012-01-04

Histograms of Oriented Gradients for Human Detection

Histograms of Oriented Gradients for Human Detection，HOG，梯度方向直方图

2011-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 感悟、资产和幸福感