2013年05月_IT_YUAN

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Ubuntu常用命令与技巧

sudo apt－get install 软件名安装软件命令 sudo nautilus 打开文件（有root权限） su root 切换到“root” ls 列出当前目录文件（不包括隐含文件） ls -a 列出当前目录文件（包括隐含文件） ls -l 列出当前目录下文件的详细信息 cd .. 回当前目录的上一级目录 cd - 回上一次所在的目录 cd ~

2013-05-31 21:52:45 936

转载 ubuntu配置vnc（ubuntu13.04这个版本的可以）

折腾了一天多，终于搞定了这个远程登录Ubuntu桌面的问题，感叹，为啥windows 那么多人喜欢用，就因为简单！在公司里我有两台机器，一台win7 ,另一台前两天安装了ubuntu 11.10 ，搞两套键盘鼠标太烦，干脆给ubuntu搞个远程桌面（在ubuntu下远程win7的话，颜色什么的最高只能到24，很丑），这样就能把两台显示器连到一台机器上，同时用两台机器，一套键盘鼠标。先说说w

2013-05-31 20:35:10 5241 1

转载 UBUNTU上VNC 配置

Ubuntu下设置VNCServerVirtual Network Computing(VNC)是进行远程桌面控制的一个软件。客户端的键盘输入和鼠标操作通过网络传输到远程服务器，控制服务器的操作。服务器的图形界面通过网络传输会客户端显示给用户。给你的感觉就像直接在操作本地计算机一样，只是所有的程序和命令都是在服务器端执行。1、打开一个Terminal window2、

2013-05-31 20:19:10 1244

转载 windows通过VNC连接Ubuntu

windows通过VNC连接Ubuntu1.#下载安装vnc服务sudo apt-get install vnc4server2.#生成密码文件，远程连接时用到#或者在第一次运行vnc4server时生成密码vnc4passwd3.#修改/root/.vnc/xstartup#注释掉

2013-05-31 16:05:51 1190

转载 windows 通过vnc远程连接Ubuntu

Ubuntu服务器：vnc4server-免费软件，可以从源里面找到。sudo apt-get install vnc4server配置：1、生成一个passwd文件vnc4passwd在$HOME/.vnc目录下面生成一个passwd文件。$HOME/.vnc是一个vnc4server的关键目录。2、开启vnc4server输入：vnc4s

2013-05-31 16:05:28 1315

转载 bloom filter详细讲解以及代码分析

bloom filter详细讲解以及代码分析一. 简介1.什么是bloom filter？ Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构，它具有很好的空间和时间效率，被用来检测一个元素是不是集合中的一个成员，这种检测只会对在集合内的数据错判，而不会对不是集合内的数据进行错判，这样每个检测请求返回有“在

2013-05-31 08:54:42 1032

VA函数（variable argument function），参数个数可变函数，又称可变参数函数。C/C++编程中，系统提供给编程人员的va函数很少。*printf()/*scanf()系列函数，用于输入输出时格式化字符串；exec*()系列函数，用于在程序中执行外部文件(main(int argc, char* argv[]算不算呢，与其说main()也是一个可变参数函数，倒不如说它是exe

2013-05-30 16:34:11 1098

转载文件数据块分块算法解析

1. 简介存储系统的重复数据删除过程一般是这样的：首先将数据文件分割成一组数据块，为每个数据块计算指纹，然后以指纹为关键字进行Hash查找，匹配则表示该数据块为重复数据块，仅存储数据块索引号，否则则表示该数据块是一个新的唯一块，对数据块进行存储并创建相关元信息。这样，一个物理文件在存储系统就对应一个逻辑表示，由一组FP组成的元数据。当进行读取文件时，先读取逻辑文件，然后根据F

2013-05-29 20:48:21 7616

转载重复数据删除的算法

1.Hash算法Hash一般翻译为散列，或音译为哈希，就是把任意长度的输入(称为预映射)通过Hash算法变换成固定长度的输出，该输出就是Hash值。这种转换是一种压缩映射，Hash值的空间通常远小于输入的空间。Hash算法的数学表达式为CA=Hc(Content)，其中Hc( )表示单向Hash函数，而Content代表任意长度字符串,CA则代表固定长度Hash值。Hash算法在信息安全领域中被广

2013-05-29 19:06:02 4569

转载基于内容可变长度分块(CDC)

基于内容可变长度分块1，简介重复数据块检测技术分为，固定分块检测技术(Fixed-Sized Partition, FSP)，可变分块检测技术(Variable-Sized Partition, VSP)，滑动块技术(Sliding Block)。固定分块将数据流按固定的长度分块，实现很简单，但某一处数据的变化将导致之后的所有分块都发生变化，从而无法进行匹配。因此，固定分块技术

2013-05-29 11:07:10 2730

转载重复数据删除技术简介

0.绪论　　一般情况下，数据中心每周需要将主存储设备的所有数据备份到辅存储设备上，并保存数月时间，我们称之为全备份。另外，数据中心可能每天还需做一次增量备份，只备份当天改变的数据。辅存储设备的容量达到主存储设备的10到20倍是很正常的。如果需要做容灾备份的话，容量还需翻一倍，假如容灾备份需要在广域网上进行，那么带宽消耗也是很可怕的。1. 重复数据删除的分类　　从重复数据删除

2013-05-29 09:55:02 4932

转载 BloomFilter——大规模数据处理利器

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例　　为了说明Bloom Filter存在的重要意义，举一个实例：　　假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。

2013-05-28 10:47:46 896

转载从哈希存储到Bloom Filter

先解释一下什么是哈希函数。哈希函数简单来说就是一种映射，它可取值的范围（定义域）通常很大，但值域相对较小。哈希函数所作的工作就是将一个很大定义域内的值映射到一个相对较小的值域内。传统的哈希存储假设要哈希的集合为S，它有n个元素。传统的哈希方法是，将哈希区域组织成h（h > n）个格子的列表，每一个格子都能存储S中的一个元素。存储时将S中的每一个元素映射到{0, 1, … , h-1

2013-05-28 10:25:35 720

转载 Bloom Filter概念和原理

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom

2013-05-28 10:04:04 574

转载布隆过滤器 (Bloom Filter) 详解

布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出，它是一种space efficient的概率型数据结构，用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集合中，但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元

2013-05-28 09:54:47 1060

转载程序员学SEO系列一：SEO引论

摘要对网站进行SEO 是需要网站营销人员和网站开发人员共同努力完成的。而在实际的SEO工作中，经常会遇到营销人员和开发人员对SEO认知角度、理解方向不同，而产生工作上的摩擦。本系列原创文章主要是由webryan通过从技术角度对SEO 的实现的分析，使得开发人员更深入的理解SEO策略和实际技巧。同时又能让营销人员从概念上理解SEO 开发的点滴。这里主要是针对Apache和PHP。其他语言

2013-05-27 22:10:01 1144

转载 SSH原理与运用（二）：远程操作与端口转发

作者：阮一峰日期： 2011年12月23日接着前一次的文章，继续介绍SSH的用法。=======================================SSH原理与运用（二）：远程操作与端口转发作者：阮一峰（Image credit: Tony Narlock）七、远程操作SSH不仅可以用于远程主机登录，还可

2013-05-27 21:57:50 834

转载 SSH原理与运用（一）：远程登录

作者：阮一峰日期： 2011年12月21日SSH是每一台Linux电脑的标准配置。随着Linux设备从电脑逐渐扩展到手机、外设和家用电器，SSH的使用范围也越来越广。不仅程序员离不开它，很多普通用户也每天使用。SSH具备多种功能，可以用于很多场合。有些事情，没有它就是办不成。本文是我的学习笔记，总结和解释了SSH的常见用法，希望对大家有用。虽然本文

2013-05-27 21:52:12 861

转载理解RESTful架构

作者：阮一峰日期： 2011年9月12日越来越多的人开始意识到，网站即软件，而且是一种新型的软件。这种"互联网软件"采用客户端/服务器模式，建立在分布式体系上，通过互联网通信，具有高延时（high latency）、高并发等特点。网站开发，完全可以采用软件开发的模式。但是传统上，软件和网络是两个不同的领域，很少有交集；软件开发主要针对单机环境，网络则主要研

2013-05-27 21:16:25 697

转载分布式文件系统：原理、问题与方法

本地文件系统如ext3，reiserfs等（这里不讨论基于内存的文件系统），它们管理本地的磁盘存储资源、提供文件到存储位置的映射，并抽象出一套文件访问接口供用户使用。但随着互联网企业的高速发展，这些企业对数据存储的要求越来越高，而且模式各异，如淘宝主站的大量商品图片，其特点是文件较小，但数量巨大；而类似于youtube，优酷这样的视频服务网站，其后台存储着大量的视频文件，尺寸大多在数十兆到数吉字节

2013-05-27 17:17:07 8411

转载 Ubuntu 12.04 Ceph分布式文件系统之部署

二、 Ceph快速配置资源：两台机器：一台server，一台client，安装ubuntu12.04其中，server安装时，另外分出两个区，作为osd0、osd1的存储，没有的话，系统安装好后，使用loop设备虚拟出两个也可以。步骤：1、服务端安装CEPH (MON、MDS、OSD)2、添加key到APT中，更新sources.list，安装

2013-05-23 20:46:35 3299

转载 RADOS分布式对象存储原理简介

Ceph是一个开源的PB级文件系统，最早是加州大学Santa Cruz分校的一个研究项目，项目创始人sage weil是该校的一名博士。 ceph包括一个兼容POSIX的分布式文件CephFS，一个分布式对象存储系统RADOS(Reliable Autonomic Distributed Object Storage)，并基于RADOS实现了一个且兼容Swift和S3的存储系统rad

2013-05-23 16:36:47 18261

转载分布式文件系统Ceph调研1 – RADOS

Ceph是加州大学Santa Cruz分校的Sage Weil（DreamHost的联合创始人）专为博士论文设计的新一代自由软件分布式文件系统。自2007年毕业之后，Sage开始全职投入到Ceph开发之中，使其能适用于生产环境。Ceph的主要目标是设计成基于POSIX的没有单点故障的分布式文件系统，使数据能容错和无缝的复制。2010年3 月，Linus Torvalds将Ceph client合

2013-05-22 11:18:44 1734

转载 ceph学习（二）——设计架构

² 架构针对的应用环境是海量文件存储，且底层的存储设备是不可靠的，系统的负载和访问随着时间会动态变化。客户端使用的是用户态程序。 ² 元数据管理使用元数据集群管理元数据请求，元数据都集中存放在OSD上，元数据服务器只用了处理元数据请求已经缓存部分元数据信息；mds集群上缓存的元数据信息使用动态子树分割管理。

2013-05-22 11:10:11 2528 1

转载分布式文件系统 FastDFS

文/余庆FastDFS是一款类Google FS的开源分布式文件系统，它用纯C语言实现，支持Linux、FreeBSD、AIX等UNIX系统。它只能通过专有API对文件进行存取访问，不支持POSIX接口方式，不能mount使用。准确地讲，Google FS以及FastDFS、mogileFS、HDFS、TFS等类Google FS都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务

2013-05-10 11:06:35 1285

转载从海量数据中提取TopK过程模拟

在工作面试中，经常会出现考察海量数据处理的问题：给你若干个数，从其中找到出现次数最多的K个数据。（百度面试题中，有N多IP地址，让你找访问量TopK的IP）解决方法1. 有大量重复数据如果有大量重复数据，可以利用map，遍历文件，一次性将所有不同数据载入内存，对于重复数据，出现次数++。读取完毕后，利用堆排序，提取出topK即可。 2. 重复数据很少

2013-05-09 20:43:03 1414

转载解密搜索引擎技术实战：Lucene&Java精华版

http://book.51cto.com/art/201106/269032.htm

2013-05-09 15:28:37 1689

转载十七道海量数据处理面试题与Bit-map详解

第一部分、十五道海量数据处理面试题1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文

2013-05-09 09:46:36 819