- 博客(4)
- 收藏
- 关注
翻译 PageRank笔记
Web结构: 现实中的web结构并不都是上面所示例的那样具有强连通性,一般的web结构如下图所示,其中SCC(Strongly Connected Componet)强连通子图。 避免终止点:一个没有出链的网页称为终止点。 如,去掉上例中C到A的边。 处理终止点: 1. 将终止点及其入链从图中删除,最终得到一个强连通子图。 2. 修改随机
2016-05-05 22:10:36
516
原创 大数据学习笔记3-近邻搜索
1.集合的Jaccard相似度 集合S和T的Jaccard相似度为|S∩T|/|S∪T|,交集除以并集。SIM(S, T) 如上图所示,SIM(S, T) = 3/8 2. 文档的Shingling 文档的k-Shingle定义为其中任意长度为k的子串。 k值的选择依赖于文档的典型长度以及典型的字符表大小。 k值应该选的足够大
2016-05-05 21:12:06
482
原创 大数据学习笔记2-MapReduce
Map-Reduce是一种计算模式,用于实现管理多个大规模计算过程。保证对硬件故障的容错性。 通常包含Map和Reduce两种函数。 1. 一个系统可包含多个Map任务,输入为分布式文件(DFS)中的一个或者多个文件块。 Map的任务是将文件块转化成一个键值对序列。 2. 系统的主控制器从每个Map任务中收集一系列键值对,并对其按照键大小进行排序。这些键值对又被分到所有的Reduce任务中,
2016-05-05 20:55:05
320
原创 大数据学习笔记1
文档分类 通常文档中最常出现的词都是无意义的常用词,而关于主题的词语通常出现的并不多,但又不是所有少见的词都有用。 1.找出跟主题相关的重要词汇; 2. 计算TF.IDF,度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF(Term Frequency, Inverse Document Frequency) TF_{ij} = f_{ij}/max_kf_{kj} f_{
2016-05-05 17:21:44
369
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅