自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

翻译 PageRank笔记

Web结构: 现实中的web结构并不都是上面所示例的那样具有强连通性,一般的web结构如下图所示,其中SCC(Strongly Connected Componet)强连通子图。 避免终止点:一个没有出链的网页称为终止点。  如,去掉上例中C到A的边。 处理终止点: 1. 将终止点及其入链从图中删除,最终得到一个强连通子图。 2. 修改随机

2016-05-05 22:10:36 516

原创 大数据学习笔记3-近邻搜索

1.集合的Jaccard相似度 集合S和T的Jaccard相似度为|S∩T|/|S∪T|,交集除以并集。SIM(S, T)          如上图所示,SIM(S, T) = 3/8  2. 文档的Shingling 文档的k-Shingle定义为其中任意长度为k的子串。         k值的选择依赖于文档的典型长度以及典型的字符表大小。         k值应该选的足够大

2016-05-05 21:12:06 482

原创 大数据学习笔记2-MapReduce

Map-Reduce是一种计算模式,用于实现管理多个大规模计算过程。保证对硬件故障的容错性。 通常包含Map和Reduce两种函数。 1. 一个系统可包含多个Map任务,输入为分布式文件(DFS)中的一个或者多个文件块。 Map的任务是将文件块转化成一个键值对序列。 2. 系统的主控制器从每个Map任务中收集一系列键值对,并对其按照键大小进行排序。这些键值对又被分到所有的Reduce任务中,

2016-05-05 20:55:05 320

原创 大数据学习笔记1

文档分类 通常文档中最常出现的词都是无意义的常用词,而关于主题的词语通常出现的并不多,但又不是所有少见的词都有用。 1.找出跟主题相关的重要词汇; 2. 计算TF.IDF,度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF(Term Frequency, Inverse Document Frequency) TF_{ij} = f_{ij}/max_kf_{kj} f_{

2016-05-05 17:21:44 369

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除