- 博客(9)
- 资源 (20)
- 收藏
- 关注
转载 关于buffer,cache,wb,wt,clean,inv,flush,以及其他
1. 有时候需要区分buffer和cache:buffer解决CPU写的问题,比如将多次写操作buffer起来一次性更新;cache解决CPU读的问题,将数据cache起来在下次读的时候快速取用。2. cache有两种更新策略:write back和write through。writeback是将待写入memory的数据先放在cache中,直到cache位置将被替换时writeback到
2014-06-26 15:03:06 2541
转载 mahout中kmeans算法和Canopy算法实现原理
本文讲一下mahout中kmeans算法和Canopy算法实现原理。 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉。虽然算法较为简单,在实际应用中却可以有不错的效果;其算法原理也决定了其比较容易实现并行化。学习mahout就先从简单的kmeans算法开始学起,就当抛砖引玉了。 1. 首先来简单的回顾一下KMeans算法: (1
2014-06-19 17:41:13 1438
转载 hadoop上最多到底能放多少个文件?
这主要取决于NameNode的内存。因为DFS集群运行时,文件结构会保存在NameNode的内存当中。DFS每个文件信息和 块信息大约都要占150字节。所以如果复制因子为1,每个文件占一个block, 那么16G内存可以存 16 * (2^30) / 300 = 57 m , 即5.7 千万 个文件。转自:http://coderplay.iteye.com/blog/3
2014-06-19 16:49:50 2051
转载 大数据时代的机器学习热点——国际机器学习大会ICML2013参会感想
摘要:国际机器学习大会(ICML)源于1980年卡内基-梅隆大学举办的机器学习研讨会,如今已发展为国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,代表机器学习学术界最高水平。大数据时代,ICML又有什么看点?国际机器学习大会(ICML)源于1980年在卡内基-梅隆大学(CMU)举办的机器学习研讨会。几十年过去了,ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机
2014-06-17 09:23:19 1354
转载 图解linux下top命令的使用
top命令经常用来监控linux的系统状况,比如cpu、内存的使用,程序员基本都知道这个命令,但比较奇怪的是能用好它的人却很少,例如top监控视图中内存数值的含义就有不少的曲解。本文通过一个运行中的WEB服务器的top监控截图,讲述top视图中的各种数据的含义,还包括视图中各进程(任务)的字段的排序。 top进入视图top视图 01【top视图 01
2014-06-16 13:50:42 618
转载 C语言字符串操作总结大全(超详细)
1)字符串操作 strcpy(p, p1) 复制字符串 strncpy(p, p1, n) 复制指定长度字符串 strcat(p, p1) 附加字符串 strncat(p, p1, n) 附加指定长度字符串 strlen(p) 取字符串长度 strcmp(p, p1) 比较字符串 strcasecmp忽略大小写比较字符串strncmp(p, p1, n) 比较指定长
2014-06-10 17:05:28 675
转载 海量数据处理系列——C语言下实现bitmap算法
bitmap是一个十分有用的结构。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下基本原理及要点:使用bit数组来表示某些元素是否存在,比如8位电话号码扩展:bloom filter可
2014-06-10 12:14:49 932
转载 Linux ps aux指令詳解
Linux ps aux指令詳解 linux上进程有5种状态:1. 运行(正在运行或在运行队列中等待)2. 中断(休眠中, 受阻, 在等待某个条件的形成或接受到信号)3. 不可中断(收到信号不唤醒和不可运行, 进程必须等待直到有中断发生)4. 僵死(进程已终止, 但进程描述符存在, 直到父进程调用wait4()系统调用后释放)5. 停止(进程
2014-06-06 16:46:56 735
转载 Linux下查看文件和文件夹大小
Linux下查看文件和文件夹大小当磁盘大小超过标准时会有报警提示,这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点,但对文件却无能为力。 du可以查看文件及文件夹的大小。 两者配合使用,非常有效。比如用df查看哪个一级目录过大,然后用df查看文件夹或文件的大小,如此便可迅速确定症结。
2014-06-06 10:23:00 744
The Google file system(免积分下载)
2014-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人