自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

黄规速博客:学如逆水行舟,不进则退

大道至简、专注精进,总结反思,做更好的自己!

  • 博客(353)
  • 资源 (33)
  • 问答 (1)
  • 收藏
  • 关注

原创 你的数据根本不够大,别老扯什么Hadoop了

本文原名“Don’t use Hadoop when your data isn’t that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮件是:stucchio@gmail.com 。     

2013-10-10 21:13:34 10961 3

原创 TCP/IP第四层--传输层TCP和TPC数据报文详解

与UDP不同的是,TCP提供了一种面向连接的、可靠的字节流服务。TCP协议的可靠性主要有以下几点保障: (1)应用数据分割成TCP认为最适合发送的数据块。这部分是通过“MSS”(最大数据包长度)选项来控制的,通常这种机制也被称为一种协商机制,MSS规定了TCP传往另一端的最大数据块的长度。值得注意的是,MSS只能出现在SYN报文段中,若一方不接收来自另一方的MSS值...

2013-10-09 19:23:47 26911 1

原创 Infobright高性能数据仓库

Infobright 企业版——分析型高性能数据仓库Infobright企业版是一款基于独特的专利知识网格技术的列式数据库。Infobright简单易用,快速安装部署,使用中无需复杂操作,能大幅度减少管理工作;在应对50TB甚至更多数据量进行多并发复杂查询时,更能够显示出令人惊叹的速度。相比于MySQL,其查询速度提升了数倍甚至数十倍,在同类产品中单机性能处于领先地位。为企业剧增的数据规模

2013-09-21 14:11:40 22131 1

原创 浅谈技术管理(转载,讲的非常不错,技术和产品都值得一看)

原文链接:http://hi.baidu.com/ncaoz/item/8a17ff633682fd09a0cf0f78     针对这些年旁观和经历过的技术产品场景,做一些个人的总结和判定,尽量不涉及争议性话题,比如对一个互联网公司而言,技术重要还是产品重要之类的,这种话题一扯开,各有道理,谁也别指望说服谁。    此外,加一个前缀,主要针对非技术领导者所面临的技术管理困境,

2013-09-16 09:40:54 6167 3

原创 TIME_WAIT引起Cannot assign requested address报错

主动关闭的Socket端会进入TIME_WAIT状态,并且持续2MSL时间长度,MSL就是maximum segment lifetime(最大分节生命期),这是一个IP数据包能在互联网上生存的最长时间,超过这个时间将在网络中消失。MSL在RFC 1122上建议是2分钟,而源自berkeley的TCP实现传统上使用30秒,因而,TIME_WAIT状态一般维持在1-4分钟。    TIME_WA

2013-08-25 13:37:12 28719

原创 Storm集群安装详解

本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。3.1 Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:1. 主控节点(Master Node)上运行一个被称为Nimb

2013-07-25 19:58:05 23342 1

原创 java(10)-JVM性能监控和优化

jstack pid 堆栈信息 jstat -gcutil pid 1000 间隔1000ms采样GC信息 jmap -heap pid打印jvm heap的情况 jmap -histo pid 打印jvm heap的直方图。其输出信息包括类名,对象数量,对象占用大小。jmap -histo:live pid 同上,但是只打印存活对象的情况。

2013-07-01 00:09:12 19012 1

原创 用Redis bitmap统计活跃用户、留存

Spool的开发者博客,描述了Spool利用Redis的bitmaps相关的操作,进行网站活跃用户统计工作。      原文:http://blog.getspool.com/2011/11/29/fast-easy-realtime-metrics-using-redis-bitmaps/  Redis支持对String类型的value进行基于二进制位的置位操作。通过将一个用户的

2013-06-27 21:05:38 19263 1

原创 Redis 代理服务Twemproxy

1、twemproxy explore      当我们有大量 Redis 或 Memcached 的时候,通常只能通过客户端的一些数据分配算法(比如一致性哈希),来实现集群存储的特性。虽然Redis 2.6版本已经发布Redis Cluster,但还不是很成熟适用正式生产环境。 Redis 的 Cluster 方案还没有正式推出之前,我们通过 Proxy 的方式来实现集群存储。

2013-06-25 23:38:05 29073

原创 Redis详解

1、与mencache比较性能方面:没有必要过多的关心性能,因为二者的性能都已经足够高了。由于Redis只使用单核,而Memcached可以使用多核,所以在比较上,平均每一个核上Redis在存储小数据时比Memcached性能更高。而在100k以上的数据中,Memcached性能要高于Redis,虽然Redis最近也在存储大数据的性能上进行优化,但是比起Memcached,还...

2013-06-24 21:02:06 18462 4

原创 Nginx工作原理和优化总结。

NGINX以高性能的负载均衡器,缓存,和web服务器闻名,驱动了全球超过 40% 最繁忙的网站。在大多数场景下,默认的 NGINX 和 Linux 设置可以很好的工作,但要达到最佳性能,有些时候必须做些调整。首先我们先了解其工作原理。1. Nginx的模块与工作原理Nginx由内核和模块组成,其中,内核的设计非常微小和简洁,完成的工作也非常简单,仅仅通过查找配置文件将客...

2013-05-16 11:04:53 151761 19

原创 Redis应用场景

1.  MySql+Memcached架构的问题  实际MySQL是适合进行海量数据存储的,通过Memcached将热点数据加载到cache,加速访问,很多公司都曾经使用过这样的架构,但随着业务数据量的不断增加,和访问量的持续增长,我们遇到了很多问题:  1.MySQL需要不断进行拆库拆表,Memcached也需不断跟着扩容,扩容和维护工作占据大量开发时间。  2.

2013-05-06 20:23:15 144644 45

原创 Linux系统安全基础知识

基本的系统安全物理安全和登录安全禁用root登录和sudo可插拔认证模块(PAM)基于PAM的口令安全和口令策略基于PAM的访问控制

2013-05-03 17:12:36 11429 1

原创 HTTP详解(3)-http1.0 和http1.1 区别

翻了下HTTP1.1的协议标准RFC2616,下面是看到的一些它跟HTTP1.0的差别。1. Persistent Connection持久连接       在HTTP1.0中,每对Request/Response都使用一个新的连接。        HTTP 1.1则支持持久连接Persistent Connection, 并且默认使用persistent  c

2013-03-17 16:51:19 30569 4

原创 HTTP详解(1)-工作原理

1. HTTP简介 HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。在了解HTTP如何工作之前,我...

2013-03-16 23:24:05 94366 10

原创 PHP编程注意事项

1、php隐性的三元操作符(?:)优先级问题:例1:$person = $who or $person = "laruence";//实际上是等同于:$person = empty($who)? "laruence" : $who; 例2$arr = array(1=>1,3=>3);$i = 2;$a = ’test‘ . isset($arr[$i]) ?

2013-02-22 13:13:41 5977 1

原创 TCP/IP第三层--网络层

一.功能目的1)、主要功能:负责点到点(point-to-point)的传输(这里的“点”指主机或路由器) 网络层是为传输层提供服务的,传送的协议数据单元称为数据包或分组。该层的主要作用是解决如何使数据包通过各结点传送的问题,即通过路径选择算法(路由)将数据包送到目的地。另外,为避免通信子网中出现过多的数据包而造成网络阻塞,需要对流入的数据包数量进行控制(拥塞控制)...

2013-02-16 12:38:22 25979 6

原创 java(9)-深入浅出JVM内存管理:分配和GC垃圾回收

1、本文了解GC垃圾回收机制,深入理解GC后才明白,为啥FGC会导致stop-the-world。 2、了解GC算法。

2013-01-28 16:02:05 8963 2

原创 解读Google分布式锁服务

背景介绍在2010年4月,Google的网页索引更新实现了实时更新,在今年的OSDI大会上,Google首次公布了有关这一技术的论文。在此之前,Google的索引更新,采用的的批处理的方式(map/reduce),也就是当增量数据达到一定规模之后,把增量数据和全量索引库Join,得到最新的索引数据。采用新的索引更新系统之后,数据的生命周期缩短了50%,所谓的数据生命周期是指,数据从

2013-01-06 20:45:40 4840

原创 使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获

2012-12-31 10:12:12 78254 11

原创 大数据计算:如何仅用1.5KB内存为十亿对象计数

Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5KThis is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurately estimate

2012-12-25 18:58:22 21782 3

原创 数学算法那些事

1. 三种方法求最大公约数1、连续整数检测法. 此算法比较简单:/** * greatest common divisor * * @param int $a * @param int $b */function gcd($a, $b){ $t = $a> $b ?$b :$a; while ($t>0){ if($a%$t=

2012-12-24 19:59:06 4271 1

原创 Spring学习笔记(1) 一Sping简单入门

Spring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson 在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。

2012-12-12 09:32:32 4243 2

原创 正则表达式详解

前言正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。 1. 引子  目前,正则表达式已经在很多软件中得到广泛的应用,包括*nix(Linux, Unix等),HP等操作系统,PHP,C#,Java等开发环境,以

2012-11-30 17:39:53 11276

原创 java(5)-深入理解虚拟机JVM

在Java中引入了虚拟机的概念,即在机器和编译程序之间加入了一层抽象的虚拟的机器。这台虚拟的机器在任何平台上都提供给编译程序一个的共同的接口。编译程序只需要面向虚拟机,生成虚拟机能够理解的代码,然后由解释器来将虚拟机代码转换为特定系统的机器码执行。在Java中,这种供虚拟机理解的代码叫做字节码(ByteCode)(class文件的内容),它不面向任何特定的处理器,只面向虚拟机。每一...

2012-11-27 16:59:34 17478

原创 细数二十世纪最伟大的十大算法

参考论文:The Best of the 20th Century: Editors Name Top 10 Algorithms。By Barry A. Cipra。地址:http://www.uta.edu/faculty/rcli/TopTen/topten.pdf。博主说明:1、此20世纪的十大算法,除了快速排序算法,或者快速傅里叶变换算法,其它算法只要稍作了解即可。

2012-11-13 17:33:25 6566 1

原创 Trie树:应用于统计和排序

1. 什么是trie树  1.Trie树 (特例结构树)        Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。     Trie的核心思想是空间换时间。

2012-10-31 17:08:31 40052 9

原创 谷歌10个用户体验设计原则

谷歌10个用户体验设计原则:1. 以人为本——专注于人们的生活、工作、梦想。Focus on people – their lives, their work, their dreams.2. 把速度精确到毫秒。Every millisecond counts.3. 简而有力。Simplicity is powerful.4.  雅俗共赏。Engage beginner

2012-10-17 10:19:04 4929 1

原创 java(8)--线程ThreadLocal详解

一. ThreadLocal是什么1.1、ThreadLocal简介 在JDK 1.2的版本中就提供java.lang.ThreadLocal,ThreadLocal为解决多线程程序的并发问题提供了一种新的思路。使用这个工具类可以很简洁地编写出优美的多线程程序。 在JDK5.0以后,ThreadLocal已经支持泛型,ThreadLocal类的类名变为ThreadLocal&lt...

2012-09-29 11:10:21 5607 2

原创 链接分析算法之:HillTop算法

Hilltop算法是由Krishna Baharat 在2000年左右研究的,于2001年申请专利,但是有很多人以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师,然后授权给Google使用的。         在与PageRank算法相比之下,Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能。Googl

2012-09-26 17:04:43 14134 1

原创 链接分析算法之:SALSA算法

SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景。由此可见,SALSA算法融合了PageRank和HITS算法的基本思想,从实际效果来说,很多实验数据表明,SALSA的搜索效果也都优于前两个算法,是目前效果最好的链接分析算法之一。        从整体

2012-09-25 17:04:43 12370 1

原创 链接分析算法之:HITS算法

HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。    HITS算法是链接分析中非常基础且重

2012-09-24 19:53:28 63946 5

原创 链接分析算法之:主题敏感PageRank

前面的讨论提到。PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别。例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画。理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行。所以搜索引擎一般会选择一种称为主题敏感PageRan

2012-09-23 13:11:59 14829 3

原创 PageRank算法

1. PageRank算法概述         PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。        是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上

2012-09-21 17:02:52 244207 24

原创 搜索引起的链接分析-计算网页的重要性

1. 链接分析       搜索引擎在查找能够满足用户请求的网页时,主要考虑两方面的因素:        网页和查询的相关性:是用户发出的查询与网页内容的内容相似性得分。        网页的重要性:通过链接分析方法计算获得的得分。        搜索引擎融合两者,共同拟合出相似性评分函数,来对搜索结果进行排序。        常见的链接分析算法除了鼎鼎有名的PageRan

2012-09-19 18:12:22 6065

原创 机器学习排序

从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。       第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。       第二代技术,利用互联网的超文本结构,有效地计算网页的相关度与重要度,代表的算法有 PageRank 等。       第三代技术,有效利用日志数据与统计学习方法,使网页相关度与重要度计算的精度有了进一步的提升,代表

2012-09-18 16:00:39 26955 5

原创 搜索引擎的检索模型-查询与文档的相关度计算

1. 检索模型概述      搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。       判断网页内容是否与用户査询相关,这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的理论基础,为量化相关性提供了一种数

2012-09-17 14:12:09 24335 1

原创 搜索引擎-处理查询

我们从用户的角度来看,用户不关心什么索引结构是倒排还是签名文件,也不需要知道相关排序算法。用户提交了查询,就需要获取满意的搜索结果。这个搜索结果就是搜索引擎是否提供有效的服务。1.查询流程查询流程图:1)用户提交查询2)分析查询     查询预处理:     1. 一般过滤掉助词或者标点符号之类,如中文的“的”,英文'The' . 另外对中文做分词处理获取检

2012-09-14 18:19:40 6929 2

原创 倒排索引-搜索引擎的基石

1.概述      在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引起,他它并不能满足其特殊要求:      1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量 ,面对如此海量数据 ,使得数据库系统很难有效的管理。       2)数据操作简单:搜索引擎使用的数据操作简单 ,一般而言 ,只需要

2012-09-12 16:47:11 22571 1

原创 搜索引擎-倒排索引基础知识

搜索引擎的索引1.单词——文档矩阵       单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。

2012-09-11 19:49:48 97180 22

Ttrift 访问hive的php客户包

Ttrift 访问hive的php客户包

2014-02-11

计算机操作系统教程+张尧学+清华版 第三版.pdf

计算机操作系统教程+张尧学+清华版 第三版.pdf

2012-09-28

谷歌三大核心技术

TheGoogleFileSystem中文版, MapReduce中文版, BigTable中文版,

2012-02-09

JAVA反射机制和原理

JAVA反射机制和原理JAVA反射机制和原理JAVA反射机制和原理

2010-08-15

详细介绍 jpa 开发文档

详细介绍 jpa 开发文档详细介绍 jpa 开发文档详细介绍 jpa 开发文档详细介绍 jpa 开发文档

2010-08-15

memcache软件和+教程

memcache软件和+教程memcache软件和+教程

2010-04-02

经典总结php效率高写法!

经典总结,php效率高写法,php效率高写法

2010-04-02

LAMP环境搭建教程!

LAMP环境搭建,相当经典!希望对初学者有用

2010-04-02

Flex初学者中文教程

Flex初学者中文教程,Flex初学者中文教程Flex初学者中文教程

2010-01-12

flex例子大全,对初学者很受用

flex例子大全,flex例子大全,flex例子大全

2010-01-12

Flex3企业级Web应用系统设计与实现

Flex3企业级Web应用系统设计与实现,很不错哦

2010-01-12

ajax与php源代码

ajax与php源代码ajax与php源代码ajax与php源代码ajax与php源代码

2009-05-22

EXCEL内容导入mysql

EXCEL内容导入mysqlEXCEL内容导入mysqlEXCEL内容导入mysqlEXCEL内容导入mysql

2009-05-22

php单例模式和工厂模式

php单例模式php单例模式php单例模式php单例模式

2009-05-22

ajax无刷新上传图片实例

ajax无刷新上传图片实例,很实用!学习ajax的好帮手

2009-05-22

最全面的php图片上传类

最全面的php图片上传:对图像加水印和 缩略图片

2009-05-15

ajax开发大全应用实例

ajax开发大全应用实例 ,包括Xajax中文手册(第一版).mht

2008-12-13

PHP常用函数大全使用

PHP常用函数大全,有很多实例!欢迎使用

2008-12-13

mysql手册 包括mysql优化和管理

mysql手册 包括mysql优化和管理,最新最全面的mysql手册

2008-11-29

深入浅出的mysql优化大全

深入浅出的mysql优化大全!网易数据库专家写的

2008-11-29

PHPEXCEL使用小结

PHPEXCEL使用小结,告诉你PHPEXCEL使用

2008-11-08

Ajax与php课本源代码

Ajax与php课本源代码,这是最新的Ajax与php结合使用

2008-10-07

JAVASCRIPT经典教程

JAVASCRIPT经典教程,轻松学好JS

2008-10-07

Javascript特效大全

Javascript特效大全,学习JS不再烦恼

2008-10-07

apache+PHP+MySQL一键安装软件!

PHP一键安装软件,很实用,特别对那些php初学者很有用处

2008-10-07

VBA编程大全 学习VBA

VBA编程大全,包括所有控件的使用,和一些实现技巧

2008-09-25

Northwind(罗斯文+示例数据库)

Northwind(罗斯文+示例数据库)学习access和VBA好处

2008-09-25

access实例,轻松学习

access实例,轻松学习,运用VBA语言实现各种肝功能

2008-09-25

editor

editor editor editor

2008-02-29

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除