自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (4)
  • 收藏
  • 关注

原创 mallet学习

mallet是Umass大牛开发的一个关于统计自然语言处理的l的开源库。

2014-05-04 15:17:07 919

原创 Mahout之minhash

//第一步参数解析 int minClusterSize = Integer.valueOf(getOption(MinhashOptionCreator.MIN_CLUSTER_SIZE));//每个类中的最小point个数,默认10 int minVectorSize = Integer.valueOf(getOption(MinhashOptionCreator.MIN_

2013-10-22 17:09:24 1222

原创 FPGrowth算法研究与mahout FPGrowthDriver代码介绍

一,假设数据集:项的集合:  I   (A,B,C,D,E,F,G,H…Z)交易数据库:D  (001,002,003…007)TIDItem1Item2Item3Item4001ABC 002BC

2013-10-18 14:41:46 2144 1

原创 一致性哈希

一致性哈希常用于负载均衡与分布式。学习小组一块儿学习memcached时看到一致性哈希,所以研究了下。一致性hash使用场景举例:memcached分布式存储时,在client端应用一致性哈希算法,使kv数据均匀分散至集群的多台服务器中。 至于为什么用一致性hash,得从传统的使用方法说起,传统方法一般为hash取模的方式,具体如下:N台机器组成的集群,那么key值为K的的数据便路

2013-09-27 09:40:43 1089

原创 hdfs的机架感知

Hadoop分为存储和计算,即HDFS与mapred两大块。其中HDFS为hadoop的根基,知识点也很多。大家知道,block存放出于数据安全考虑,会有多个冗余备份(默认为3)。那么,这个副本又是如何存放,是根据什么策略呢?考虑点主要有2点:1.减小因datanode挂掉等原因导致数据丢失的不安全性2.考虑数据传输,要在保证安全的情况下尽可能地使数据传输带宽更大对于以下场景,可用

2013-09-24 10:48:22 1794

原创 排序算法总结与java实现

默认假设从小到大排序~1.选择排序 基本思想就是第i次选择出第i小的,放在第i个位置。随着 i 逐渐增大,比较的次数越来越少,比较次数是固定的: 1 + 2 + 3 + …. + n = n * (n + 1) / 2  由此可以推出,选择排序的时间复杂度和空间复杂度分别为 O(n2 ) 和 O(1) (选择排序只需要一个额外空间用于数组元素交换)。java代码://

2013-08-26 16:11:01 481

转载 cookie vs session

1.cookiecookie 在客户端,网站将一些信息通过cookie保存在本地,当同一个用户再光临同一个网站,WEB 服务器会先看看有没有它上次留下的 Cookie 资料,有的话,就会依据 Cookie里的内容来判断使用者,送出特定的网页内容给你。 Cookie 的使用很普遍,许多有提供个人化服务的网站,都是利用 Cookie来辨认使用者,以方便送出使用者量身定做的内容,像是 Web

2013-08-26 10:14:20 586

转载 【转】数学之美系列二十一 - 布隆过滤器(Bloom Filter)

在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash

2013-08-23 10:22:26 608

原创 bootstrap取样

先举个很常见的例子:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。1,可以从例子看出,bootstrap是一种从给定训练集中有放回的均匀抽样(伪样本),也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。2,是一种小样本估计总体值的非参

2013-08-22 10:34:03 1665

原创 Mahout简介一

Mahout简介:1.是apache旗下的开源项目,提供了机器学习相关的系列算法,是一个开发者用于使用和改装的工具框架;2.主要算法可分为协同过滤/推荐引擎、聚类、分类三大类,并且有很强的扩展性,可以自主优化算法;3.支持hadoop分布式计算;4.无需安装,是一个Java library。5.svn check out地址:http://svn.apache.org/repo

2013-08-21 10:07:38 964

个性化推荐系统资料整理(非原创)

个性化推荐系统是当下非常热门的话题,该文件中包含了推荐系统的架构思想与各种优化算法。

2013-07-18

Nagios安装简易指南

Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。

2013-04-08

CAJViewer 7.0.1.安装包

CAJViewer 7.0.1.安装包,直接点击安装即可,CAJ全文浏览器是中国期刊网的专用全文格式阅读器,它支持中国期刊网的CAJ、NH、KDH和PDF格式文件。它可配合网上原文的阅读,也可以阅读下载后的中国期刊网全文。

2012-08-10

juddi安装包和文档

juddi V2安装所需要的包和安装步骤的文档,可直接安装

2010-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除