- 博客(10)
- 资源 (4)
- 收藏
- 关注
原创 Mahout之minhash
//第一步参数解析 int minClusterSize = Integer.valueOf(getOption(MinhashOptionCreator.MIN_CLUSTER_SIZE));//每个类中的最小point个数,默认10 int minVectorSize = Integer.valueOf(getOption(MinhashOptionCreator.MIN_
2013-10-22 17:09:24
1222
原创 FPGrowth算法研究与mahout FPGrowthDriver代码介绍
一,假设数据集:项的集合: I (A,B,C,D,E,F,G,H…Z)交易数据库:D (001,002,003…007)TIDItem1Item2Item3Item4001ABC 002BC
2013-10-18 14:41:46
2144
1
原创 一致性哈希
一致性哈希常用于负载均衡与分布式。学习小组一块儿学习memcached时看到一致性哈希,所以研究了下。一致性hash使用场景举例:memcached分布式存储时,在client端应用一致性哈希算法,使kv数据均匀分散至集群的多台服务器中。 至于为什么用一致性hash,得从传统的使用方法说起,传统方法一般为hash取模的方式,具体如下:N台机器组成的集群,那么key值为K的的数据便路
2013-09-27 09:40:43
1089
原创 hdfs的机架感知
Hadoop分为存储和计算,即HDFS与mapred两大块。其中HDFS为hadoop的根基,知识点也很多。大家知道,block存放出于数据安全考虑,会有多个冗余备份(默认为3)。那么,这个副本又是如何存放,是根据什么策略呢?考虑点主要有2点:1.减小因datanode挂掉等原因导致数据丢失的不安全性2.考虑数据传输,要在保证安全的情况下尽可能地使数据传输带宽更大对于以下场景,可用
2013-09-24 10:48:22
1794
原创 排序算法总结与java实现
默认假设从小到大排序~1.选择排序 基本思想就是第i次选择出第i小的,放在第i个位置。随着 i 逐渐增大,比较的次数越来越少,比较次数是固定的: 1 + 2 + 3 + …. + n = n * (n + 1) / 2 由此可以推出,选择排序的时间复杂度和空间复杂度分别为 O(n2 ) 和 O(1) (选择排序只需要一个额外空间用于数组元素交换)。java代码://
2013-08-26 16:11:01
481
转载 cookie vs session
1.cookiecookie 在客户端,网站将一些信息通过cookie保存在本地,当同一个用户再光临同一个网站,WEB 服务器会先看看有没有它上次留下的 Cookie 资料,有的话,就会依据 Cookie里的内容来判断使用者,送出特定的网页内容给你。 Cookie 的使用很普遍,许多有提供个人化服务的网站,都是利用 Cookie来辨认使用者,以方便送出使用者量身定做的内容,像是 Web
2013-08-26 10:14:20
586
转载 【转】数学之美系列二十一 - 布隆过滤器(Bloom Filter)
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash
2013-08-23 10:22:26
608
原创 bootstrap取样
先举个很常见的例子:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。1,可以从例子看出,bootstrap是一种从给定训练集中有放回的均匀抽样(伪样本),也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。2,是一种小样本估计总体值的非参
2013-08-22 10:34:03
1665
原创 Mahout简介一
Mahout简介:1.是apache旗下的开源项目,提供了机器学习相关的系列算法,是一个开发者用于使用和改装的工具框架;2.主要算法可分为协同过滤/推荐引擎、聚类、分类三大类,并且有很强的扩展性,可以自主优化算法;3.支持hadoop分布式计算;4.无需安装,是一个Java library。5.svn check out地址:http://svn.apache.org/repo
2013-08-21 10:07:38
964
Nagios安装简易指南
2013-04-08
CAJViewer 7.0.1.安装包
2012-08-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人