hguisu-CSDN博客

原创你的数据根本不够大，别老扯什么Hadoop了

本文原名“Don’t use Hadoop when your data isn’t that big ”，出自有着多年从业经验的数据科学家Chris Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析、推荐优化咨询服务，他的邮件是：stucchio@gmail.com 。

2013-10-10 21:13:34 10961 3

原创 TCP/IP第四层--传输层TCP和TPC数据报文详解

与UDP不同的是，TCP提供了一种面向连接的、可靠的字节流服务。TCP协议的可靠性主要有以下几点保障：（1）应用数据分割成TCP认为最适合发送的数据块。这部分是通过“MSS”（最大数据包长度）选项来控制的，通常这种机制也被称为一种协商机制，MSS规定了TCP传往另一端的最大数据块的长度。值得注意的是，MSS只能出现在SYN报文段中，若一方不接收来自另一方的MSS值...

2013-10-09 19:23:47 26911 1

原创 Infobright高性能数据仓库

Infobright 企业版——分析型高性能数据仓库Infobright企业版是一款基于独特的专利知识网格技术的列式数据库。Infobright简单易用，快速安装部署，使用中无需复杂操作，能大幅度减少管理工作；在应对50TB甚至更多数据量进行多并发复杂查询时，更能够显示出令人惊叹的速度。相比于MySQL，其查询速度提升了数倍甚至数十倍，在同类产品中单机性能处于领先地位。为企业剧增的数据规模

2013-09-21 14:11:40 22131 1

原创浅谈技术管理(转载，讲的非常不错，技术和产品都值得一看)

原文链接：http://hi.baidu.com/ncaoz/item/8a17ff633682fd09a0cf0f78 针对这些年旁观和经历过的技术产品场景，做一些个人的总结和判定，尽量不涉及争议性话题，比如对一个互联网公司而言，技术重要还是产品重要之类的，这种话题一扯开，各有道理，谁也别指望说服谁。此外，加一个前缀，主要针对非技术领导者所面临的技术管理困境，

2013-09-16 09:40:54 6167 3

原创 TIME_WAIT引起Cannot assign requested address报错

主动关闭的Socket端会进入TIME_WAIT状态，并且持续2MSL时间长度，MSL就是maximum segment lifetime(最大分节生命期），这是一个IP数据包能在互联网上生存的最长时间，超过这个时间将在网络中消失。MSL在RFC 1122上建议是2分钟，而源自berkeley的TCP实现传统上使用30秒，因而，TIME_WAIT状态一般维持在1-4分钟。 TIME_WA

2013-08-25 13:37:12 28719

原创 Storm集群安装详解

本文以Twitter Storm官方Wiki为基础，详细描述如何快速搭建一个Storm集群，其中，项目实践中遇到的问题及经验总结，在相应章节以“注意事项”的形式给出。3.1 Storm集群组件Storm集群中包含两类节点：主控节点（Master Node）和工作节点（Work Node）。其分别对应的角色如下：1. 主控节点（Master Node）上运行一个被称为Nimb

2013-07-25 19:58:05 23342 1

原创 java(10）-JVM性能监控和优化

jstack pid 堆栈信息 jstat -gcutil pid 1000 间隔1000ms采样GC信息 jmap -heap pid打印jvm heap的情况 jmap -histo pid 打印jvm heap的直方图。其输出信息包括类名，对象数量，对象占用大小。jmap -histo:live pid 同上，但是只打印存活对象的情况。

2013-07-01 00:09:12 19012 1

原创用Redis bitmap统计活跃用户、留存

Spool的开发者博客，描述了Spool利用Redis的bitmaps相关的操作，进行网站活跃用户统计工作。原文：http://blog.getspool.com/2011/11/29/fast-easy-realtime-metrics-using-redis-bitmaps/　　Redis支持对String类型的value进行基于二进制位的置位操作。通过将一个用户的

2013-06-27 21:05:38 19263 1

原创 Redis 代理服务Twemproxy

1、twemproxy explore 当我们有大量 Redis 或 Memcached 的时候，通常只能通过客户端的一些数据分配算法（比如一致性哈希），来实现集群存储的特性。虽然Redis 2.6版本已经发布Redis Cluster，但还不是很成熟适用正式生产环境。 Redis 的 Cluster 方案还没有正式推出之前，我们通过 Proxy 的方式来实现集群存储。

2013-06-25 23:38:05 29073

原创 Redis详解

1、与mencache比较性能方面：没有必要过多的关心性能，因为二者的性能都已经足够高了。由于Redis只使用单核，而Memcached可以使用多核，所以在比较上，平均每一个核上Redis在存储小数据时比Memcached性能更高。而在100k以上的数据中，Memcached性能要高于Redis，虽然Redis最近也在存储大数据的性能上进行优化，但是比起Memcached，还...

2013-06-24 21:02:06 18462 4

原创 Nginx工作原理和优化总结。

NGINX以高性能的负载均衡器，缓存，和web服务器闻名，驱动了全球超过 40% 最繁忙的网站。在大多数场景下，默认的 NGINX 和 Linux 设置可以很好的工作，但要达到最佳性能，有些时候必须做些调整。首先我们先了解其工作原理。1. Nginx的模块与工作原理Nginx由内核和模块组成，其中，内核的设计非常微小和简洁，完成的工作也非常简单，仅仅通过查找配置文件将客...

2013-05-16 11:04:53 151761 19

原创 Redis应用场景

1. MySql+Memcached架构的问题　　实际MySQL是适合进行海量数据存储的，通过Memcached将热点数据加载到cache，加速访问，很多公司都曾经使用过这样的架构，但随着业务数据量的不断增加，和访问量的持续增长，我们遇到了很多问题：　　1.MySQL需要不断进行拆库拆表，Memcached也需不断跟着扩容，扩容和维护工作占据大量开发时间。　　2.

2013-05-06 20:23:15 144644 45

原创 Linux系统安全基础知识

基本的系统安全物理安全和登录安全禁用root登录和sudo可插拔认证模块（PAM）基于PAM的口令安全和口令策略基于PAM的访问控制

2013-05-03 17:12:36 11429 1

原创 HTTP详解(3)-http1.0 和http1.1 区别

翻了下HTTP1.1的协议标准RFC2616，下面是看到的一些它跟HTTP1.0的差别。1. Persistent Connection持久连接在HTTP1.0中，每对Request/Response都使用一个新的连接。 HTTP 1.1则支持持久连接Persistent Connection, 并且默认使用persistent c

2013-03-17 16:51:19 30569 4

原创 HTTP详解(1)-工作原理

1. HTTP简介 HTTP协议（HyperText Transfer Protocol，超文本传输协议）是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效，使网络传输减少。它不仅保证计算机正确快速地传输超文本文档，还确定传输文档中的哪一部分，以及哪部分内容首先显示(如文本先于图形)等。在了解HTTP如何工作之前，我...

2013-03-16 23:24:05 94366 10

原创 PHP编程注意事项

1、php隐性的三元操作符(?:)优先级问题：例1：$person = $who or $person = "laruence";//实际上是等同于:$person = empty($who)? "laruence" : $who; 例2$arr = array（1=>1,3=>3）；$i = 2;$a = ’test‘ . isset($arr[$i]) ?

2013-02-22 13:13:41 5977 1

原创 TCP/IP第三层--网络层

一.功能目的1)、主要功能：负责点到点（point-to-point）的传输（这里的“点”指主机或路由器）网络层是为传输层提供服务的，传送的协议数据单元称为数据包或分组。该层的主要作用是解决如何使数据包通过各结点传送的问题，即通过路径选择算法（路由）将数据包送到目的地。另外，为避免通信子网中出现过多的数据包而造成网络阻塞，需要对流入的数据包数量进行控制（拥塞控制）...

2013-02-16 12:38:22 25979 6

原创 java(9)-深入浅出JVM内存管理：分配和GC垃圾回收

1、本文了解GC垃圾回收机制，深入理解GC后才明白，为啥FGC会导致stop-the-world。 2、了解GC算法。

2013-01-28 16:02:05 8963 2

原创解读Google分布式锁服务

背景介绍在2010年4月，Google的网页索引更新实现了实时更新，在今年的OSDI大会上，Google首次公布了有关这一技术的论文。在此之前，Google的索引更新，采用的的批处理的方式(map/reduce)，也就是当增量数据达到一定规模之后，把增量数据和全量索引库Join，得到最新的索引数据。采用新的索引更新系统之后，数据的生命周期缩短了50%，所谓的数据生命周期是指，数据从

2013-01-06 20:45:40 4840

原创使用Storm实现实时大数据分析

摘要：随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了，Storm让大数据分析变得轻松加愉快。当今世界，公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获

2012-12-31 10:12:12 78254 11

原创大数据计算：如何仅用1.5KB内存为十亿对象计数

Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5KThis is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurately estimate

2012-12-25 18:58:22 21782 3

原创数学算法那些事

1. 三种方法求最大公约数1、连续整数检测法. 此算法比较简单：/** * greatest common divisor * * @param int $a * @param int $b */function gcd($a, $b){ $t = $a> $b ?$b :$a; while ($t>0){ if($a%$t=

2012-12-24 19:59:06 4271 1

原创 Spring学习笔记(1) 一Sping简单入门

Spring是一个开源框架，Spring是于2003 年兴起的一个轻量级的Java 开发框架，由Rod Johnson 在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。

2012-12-12 09:32:32 4243 2

原创正则表达式详解

前言正则表达式是烦琐的，但是强大的，学会之后的应用会让你除了提高效率外，会给你带来绝对的成就感。只要认真去阅读这些资料，加上应用的时候进行一定的参考，掌握正则表达式不是问题。 1. 引子　　目前，正则表达式已经在很多软件中得到广泛的应用，包括*nix（Linux, Unix等），HP等操作系统，PHP，C#，Java等开发环境，以

2012-11-30 17:39:53 11276

原创 java(5)-深入理解虚拟机JVM

在Java中引入了虚拟机的概念，即在机器和编译程序之间加入了一层抽象的虚拟的机器。这台虚拟的机器在任何平台上都提供给编译程序一个的共同的接口。编译程序只需要面向虚拟机，生成虚拟机能够理解的代码，然后由解释器来将虚拟机代码转换为特定系统的机器码执行。在Java中，这种供虚拟机理解的代码叫做字节码(ByteCode)（class文件的内容），它不面向任何特定的处理器，只面向虚拟机。每一...

2012-11-27 16:59:34 17478

原创细数二十世纪最伟大的十大算法

参考论文：The Best of the 20th Century: Editors Name Top 10 Algorithms。By Barry A. Cipra。地址：http://www.uta.edu/faculty/rcli/TopTen/topten.pdf。博主说明:1、此20世纪的十大算法，除了快速排序算法，或者快速傅里叶变换算法，其它算法只要稍作了解即可。

2012-11-13 17:33:25 6566 1

原创 Trie树：应用于统计和排序

1. 什么是trie树 1.Trie树（特例结构树） Trie树，又称单词查找树、字典树，是一种树形结构，是一种哈希树的变种，是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。 Trie的核心思想是空间换时间。

2012-10-31 17:08:31 40052 9

原创谷歌10个用户体验设计原则

谷歌10个用户体验设计原则：1. 以人为本——专注于人们的生活、工作、梦想。Focus on people – their lives, their work, their dreams.2. 把速度精确到毫秒。Every millisecond counts.3. 简而有力。Simplicity is powerful.4. 雅俗共赏。Engage beginner

2012-10-17 10:19:04 4929 1

原创 java(8)--线程ThreadLocal详解

一. ThreadLocal是什么1.1、ThreadLocal简介在JDK 1.2的版本中就提供java.lang.ThreadLocal，ThreadLocal为解决多线程程序的并发问题提供了一种新的思路。使用这个工具类可以很简洁地编写出优美的多线程程序。在JDK5.0以后，ThreadLocal已经支持泛型，ThreadLocal类的类名变为ThreadLocal&lt...

2012-09-29 11:10:21 5607 2

原创链接分析算法之：HillTop算法

Hilltop算法是由Krishna Baharat 在2000年左右研究的，于2001年申请专利，但是有很多人以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师，然后授权给Google使用的。在与PageRank算法相比之下，Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能。Googl

2012-09-26 17:04:43 14134 1

原创链接分析算法之：SALSA算法

SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点，既可以利用HITS算法与查询相关的特点，也可以采纳PageRank的“随机游走模型”，这是SALSA算法提出的背景。由此可见，SALSA算法融合了PageRank和HITS算法的基本思想，从实际效果来说，很多实验数据表明，SALSA的搜索效果也都优于前两个算法，是目前效果最好的链接分析算法之一。从整体

2012-09-25 17:04:43 12370 1

原创链接分析算法之：HITS算法

HITS（HITS(Hyperlink - Induced Topic Search) ）算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。 HITS算法是链接分析中非常基础且重

2012-09-24 19:53:28 63946 5

原创链接分析算法之：主题敏感PageRank

前面的讨论提到。PageRank忽略了主题相关性，导致结果的相关性和主题性降低，对于不同的用户，甚至有很大的差别。例如，当搜索“苹果”时，一个数码爱好者可能是想要看 iphone 的信息，一个果农可能是想看苹果的价格走势和种植技巧，而一个小朋友可能在找苹果的简笔画。理想情况下，应该为每个用户维护一套专用向量，但面对海量用户这种方法显然不可行。所以搜索引擎一般会选择一种称为主题敏感PageRan

2012-09-23 13:11:59 14829 3

原创 PageRank算法

1. PageRank算法概述 PageRank,即网页排名，又称网页级别、Google左侧排名或佩奇排名。是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，自从Google在商业上获得空前的成功后，该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上

2012-09-21 17:02:52 244207 24

原创搜索引起的链接分析-计算网页的重要性

1. 链接分析搜索引擎在查找能够满足用户请求的网页时，主要考虑两方面的因素：网页和查询的相关性：是用户发出的查询与网页内容的内容相似性得分。网页的重要性：通过链接分析方法计算获得的得分。搜索引擎融合两者，共同拟合出相似性评分函数，来对搜索结果进行排序。常见的链接分析算法除了鼎鼎有名的PageRan

2012-09-19 18:12:22 6065

原创机器学习排序

从使用的数据类型，以及相关的机器学习技术的观点来看，互联网搜索经历了三代的发展历程。第一代技术，将互联网网页看作文本，主要采用传统信息检索的方法。第二代技术，利用互联网的超文本结构，有效地计算网页的相关度与重要度，代表的算法有 PageRank 等。第三代技术，有效利用日志数据与统计学习方法，使网页相关度与重要度计算的精度有了进一步的提升，代表

2012-09-18 16:00:39 26955 5

原创搜索引擎的检索模型-查询与文档的相关度计算

1. 检索模型概述搜索结果排序时搜索引擎最核心的部分，很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多，但最主要的两个因素是用户查询和网页内容的相关度，以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。判断网页内容是否与用户査询相关，这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的理论基础，为量化相关性提供了一种数

2012-09-17 14:12:09 24335 1

原创搜索引擎-处理查询

我们从用户的角度来看，用户不关心什么索引结构是倒排还是签名文件，也不需要知道相关排序算法。用户提交了查询，就需要获取满意的搜索结果。这个搜索结果就是搜索引擎是否提供有效的服务。1.查询流程查询流程图：1）用户提交查询2）分析查询查询预处理： 1. 一般过滤掉助词或者标点符号之类，如中文的“的”，英文'The' . 另外对中文做分词处理获取检

2012-09-14 18:19:40 6929 2

原创倒排索引-搜索引擎的基石

1.概述在关系数据库系统里，索引是检索数据最有效率的方式,。但对于搜索引起，他它并不能满足其特殊要求： 1）海量数据：搜索引擎面对的是海量数据，像Google，百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量，面对如此海量数据 ,使得数据库系统很难有效的管理。 2）数据操作简单：搜索引擎使用的数据操作简单 ,一般而言 ,只需要

2012-09-12 16:47:11 22571 1