- 博客(353)
- 资源 (33)
- 问答 (1)
- 收藏
- 关注
原创 你的数据根本不够大,别老扯什么Hadoop了
本文原名“Don’t use Hadoop when your data isn’t that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮件是:stucchio@gmail.com 。
2013-10-10 21:13:34 10961 3
原创 TCP/IP第四层--传输层TCP和TPC数据报文详解
与UDP不同的是,TCP提供了一种面向连接的、可靠的字节流服务。TCP协议的可靠性主要有以下几点保障: (1)应用数据分割成TCP认为最适合发送的数据块。这部分是通过“MSS”(最大数据包长度)选项来控制的,通常这种机制也被称为一种协商机制,MSS规定了TCP传往另一端的最大数据块的长度。值得注意的是,MSS只能出现在SYN报文段中,若一方不接收来自另一方的MSS值...
2013-10-09 19:23:47 26911 1
原创 Infobright高性能数据仓库
Infobright 企业版——分析型高性能数据仓库Infobright企业版是一款基于独特的专利知识网格技术的列式数据库。Infobright简单易用,快速安装部署,使用中无需复杂操作,能大幅度减少管理工作;在应对50TB甚至更多数据量进行多并发复杂查询时,更能够显示出令人惊叹的速度。相比于MySQL,其查询速度提升了数倍甚至数十倍,在同类产品中单机性能处于领先地位。为企业剧增的数据规模
2013-09-21 14:11:40 22131 1
原创 浅谈技术管理(转载,讲的非常不错,技术和产品都值得一看)
原文链接:http://hi.baidu.com/ncaoz/item/8a17ff633682fd09a0cf0f78 针对这些年旁观和经历过的技术产品场景,做一些个人的总结和判定,尽量不涉及争议性话题,比如对一个互联网公司而言,技术重要还是产品重要之类的,这种话题一扯开,各有道理,谁也别指望说服谁。 此外,加一个前缀,主要针对非技术领导者所面临的技术管理困境,
2013-09-16 09:40:54 6167 3
原创 TIME_WAIT引起Cannot assign requested address报错
主动关闭的Socket端会进入TIME_WAIT状态,并且持续2MSL时间长度,MSL就是maximum segment lifetime(最大分节生命期),这是一个IP数据包能在互联网上生存的最长时间,超过这个时间将在网络中消失。MSL在RFC 1122上建议是2分钟,而源自berkeley的TCP实现传统上使用30秒,因而,TIME_WAIT状态一般维持在1-4分钟。 TIME_WA
2013-08-25 13:37:12 28719
原创 Storm集群安装详解
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。3.1 Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:1. 主控节点(Master Node)上运行一个被称为Nimb
2013-07-25 19:58:05 23342 1
原创 java(10)-JVM性能监控和优化
jstack pid 堆栈信息 jstat -gcutil pid 1000 间隔1000ms采样GC信息 jmap -heap pid打印jvm heap的情况 jmap -histo pid 打印jvm heap的直方图。其输出信息包括类名,对象数量,对象占用大小。jmap -histo:live pid 同上,但是只打印存活对象的情况。
2013-07-01 00:09:12 19012 1
原创 用Redis bitmap统计活跃用户、留存
Spool的开发者博客,描述了Spool利用Redis的bitmaps相关的操作,进行网站活跃用户统计工作。 原文:http://blog.getspool.com/2011/11/29/fast-easy-realtime-metrics-using-redis-bitmaps/ Redis支持对String类型的value进行基于二进制位的置位操作。通过将一个用户的
2013-06-27 21:05:38 19263 1
原创 Redis 代理服务Twemproxy
1、twemproxy explore 当我们有大量 Redis 或 Memcached 的时候,通常只能通过客户端的一些数据分配算法(比如一致性哈希),来实现集群存储的特性。虽然Redis 2.6版本已经发布Redis Cluster,但还不是很成熟适用正式生产环境。 Redis 的 Cluster 方案还没有正式推出之前,我们通过 Proxy 的方式来实现集群存储。
2013-06-25 23:38:05 29073
原创 Redis详解
1、与mencache比较性能方面:没有必要过多的关心性能,因为二者的性能都已经足够高了。由于Redis只使用单核,而Memcached可以使用多核,所以在比较上,平均每一个核上Redis在存储小数据时比Memcached性能更高。而在100k以上的数据中,Memcached性能要高于Redis,虽然Redis最近也在存储大数据的性能上进行优化,但是比起Memcached,还...
2013-06-24 21:02:06 18462 4
原创 Nginx工作原理和优化总结。
NGINX以高性能的负载均衡器,缓存,和web服务器闻名,驱动了全球超过 40% 最繁忙的网站。在大多数场景下,默认的 NGINX 和 Linux 设置可以很好的工作,但要达到最佳性能,有些时候必须做些调整。首先我们先了解其工作原理。1. Nginx的模块与工作原理Nginx由内核和模块组成,其中,内核的设计非常微小和简洁,完成的工作也非常简单,仅仅通过查找配置文件将客...
2013-05-16 11:04:53 151761 19
原创 Redis应用场景
1. MySql+Memcached架构的问题 实际MySQL是适合进行海量数据存储的,通过Memcached将热点数据加载到cache,加速访问,很多公司都曾经使用过这样的架构,但随着业务数据量的不断增加,和访问量的持续增长,我们遇到了很多问题: 1.MySQL需要不断进行拆库拆表,Memcached也需不断跟着扩容,扩容和维护工作占据大量开发时间。 2.
2013-05-06 20:23:15 144644 45
原创 Linux系统安全基础知识
基本的系统安全物理安全和登录安全禁用root登录和sudo可插拔认证模块(PAM)基于PAM的口令安全和口令策略基于PAM的访问控制
2013-05-03 17:12:36 11429 1
原创 HTTP详解(3)-http1.0 和http1.1 区别
翻了下HTTP1.1的协议标准RFC2616,下面是看到的一些它跟HTTP1.0的差别。1. Persistent Connection持久连接 在HTTP1.0中,每对Request/Response都使用一个新的连接。 HTTP 1.1则支持持久连接Persistent Connection, 并且默认使用persistent c
2013-03-17 16:51:19 30569 4
原创 HTTP详解(1)-工作原理
1. HTTP简介 HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。在了解HTTP如何工作之前,我...
2013-03-16 23:24:05 94366 10
原创 PHP编程注意事项
1、php隐性的三元操作符(?:)优先级问题:例1:$person = $who or $person = "laruence";//实际上是等同于:$person = empty($who)? "laruence" : $who; 例2$arr = array(1=>1,3=>3);$i = 2;$a = ’test‘ . isset($arr[$i]) ?
2013-02-22 13:13:41 5977 1
原创 TCP/IP第三层--网络层
一.功能目的1)、主要功能:负责点到点(point-to-point)的传输(这里的“点”指主机或路由器) 网络层是为传输层提供服务的,传送的协议数据单元称为数据包或分组。该层的主要作用是解决如何使数据包通过各结点传送的问题,即通过路径选择算法(路由)将数据包送到目的地。另外,为避免通信子网中出现过多的数据包而造成网络阻塞,需要对流入的数据包数量进行控制(拥塞控制)...
2013-02-16 12:38:22 25979 6
原创 java(9)-深入浅出JVM内存管理:分配和GC垃圾回收
1、本文了解GC垃圾回收机制,深入理解GC后才明白,为啥FGC会导致stop-the-world。 2、了解GC算法。
2013-01-28 16:02:05 8963 2
原创 解读Google分布式锁服务
背景介绍在2010年4月,Google的网页索引更新实现了实时更新,在今年的OSDI大会上,Google首次公布了有关这一技术的论文。在此之前,Google的索引更新,采用的的批处理的方式(map/reduce),也就是当增量数据达到一定规模之后,把增量数据和全量索引库Join,得到最新的索引数据。采用新的索引更新系统之后,数据的生命周期缩短了50%,所谓的数据生命周期是指,数据从
2013-01-06 20:45:40 4840
原创 使用Storm实现实时大数据分析
摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获
2012-12-31 10:12:12 78254 11
原创 大数据计算:如何仅用1.5KB内存为十亿对象计数
Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5KThis is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurately estimate
2012-12-25 18:58:22 21782 3
原创 数学算法那些事
1. 三种方法求最大公约数1、连续整数检测法. 此算法比较简单:/** * greatest common divisor * * @param int $a * @param int $b */function gcd($a, $b){ $t = $a> $b ?$b :$a; while ($t>0){ if($a%$t=
2012-12-24 19:59:06 4271 1
原创 Spring学习笔记(1) 一Sping简单入门
Spring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson 在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。
2012-12-12 09:32:32 4243 2
原创 正则表达式详解
前言正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。 1. 引子 目前,正则表达式已经在很多软件中得到广泛的应用,包括*nix(Linux, Unix等),HP等操作系统,PHP,C#,Java等开发环境,以
2012-11-30 17:39:53 11276
原创 java(5)-深入理解虚拟机JVM
在Java中引入了虚拟机的概念,即在机器和编译程序之间加入了一层抽象的虚拟的机器。这台虚拟的机器在任何平台上都提供给编译程序一个的共同的接口。编译程序只需要面向虚拟机,生成虚拟机能够理解的代码,然后由解释器来将虚拟机代码转换为特定系统的机器码执行。在Java中,这种供虚拟机理解的代码叫做字节码(ByteCode)(class文件的内容),它不面向任何特定的处理器,只面向虚拟机。每一...
2012-11-27 16:59:34 17478
原创 细数二十世纪最伟大的十大算法
参考论文:The Best of the 20th Century: Editors Name Top 10 Algorithms。By Barry A. Cipra。地址:http://www.uta.edu/faculty/rcli/TopTen/topten.pdf。博主说明:1、此20世纪的十大算法,除了快速排序算法,或者快速傅里叶变换算法,其它算法只要稍作了解即可。
2012-11-13 17:33:25 6566 1
原创 Trie树:应用于统计和排序
1. 什么是trie树 1.Trie树 (特例结构树) Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。 Trie的核心思想是空间换时间。
2012-10-31 17:08:31 40052 9
原创 谷歌10个用户体验设计原则
谷歌10个用户体验设计原则:1. 以人为本——专注于人们的生活、工作、梦想。Focus on people – their lives, their work, their dreams.2. 把速度精确到毫秒。Every millisecond counts.3. 简而有力。Simplicity is powerful.4. 雅俗共赏。Engage beginner
2012-10-17 10:19:04 4929 1
原创 java(8)--线程ThreadLocal详解
一. ThreadLocal是什么1.1、ThreadLocal简介 在JDK 1.2的版本中就提供java.lang.ThreadLocal,ThreadLocal为解决多线程程序的并发问题提供了一种新的思路。使用这个工具类可以很简洁地编写出优美的多线程程序。 在JDK5.0以后,ThreadLocal已经支持泛型,ThreadLocal类的类名变为ThreadLocal<...
2012-09-29 11:10:21 5607 2
原创 链接分析算法之:HillTop算法
Hilltop算法是由Krishna Baharat 在2000年左右研究的,于2001年申请专利,但是有很多人以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师,然后授权给Google使用的。 在与PageRank算法相比之下,Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能。Googl
2012-09-26 17:04:43 14134 1
原创 链接分析算法之:SALSA算法
SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景。由此可见,SALSA算法融合了PageRank和HITS算法的基本思想,从实际效果来说,很多实验数据表明,SALSA的搜索效果也都优于前两个算法,是目前效果最好的链接分析算法之一。 从整体
2012-09-25 17:04:43 12370 1
原创 链接分析算法之:HITS算法
HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。 HITS算法是链接分析中非常基础且重
2012-09-24 19:53:28 63946 5
原创 链接分析算法之:主题敏感PageRank
前面的讨论提到。PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别。例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画。理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行。所以搜索引擎一般会选择一种称为主题敏感PageRan
2012-09-23 13:11:59 14829 3
原创 PageRank算法
1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上
2012-09-21 17:02:52 244207 24
原创 搜索引起的链接分析-计算网页的重要性
1. 链接分析 搜索引擎在查找能够满足用户请求的网页时,主要考虑两方面的因素: 网页和查询的相关性:是用户发出的查询与网页内容的内容相似性得分。 网页的重要性:通过链接分析方法计算获得的得分。 搜索引擎融合两者,共同拟合出相似性评分函数,来对搜索结果进行排序。 常见的链接分析算法除了鼎鼎有名的PageRan
2012-09-19 18:12:22 6065
原创 机器学习排序
从使用的数据类型,以及相关的机器学习技术的观点来看,互联网搜索经历了三代的发展历程。 第一代技术,将互联网网页看作文本,主要采用传统信息检索的方法。 第二代技术,利用互联网的超文本结构,有效地计算网页的相关度与重要度,代表的算法有 PageRank 等。 第三代技术,有效利用日志数据与统计学习方法,使网页相关度与重要度计算的精度有了进一步的提升,代表
2012-09-18 16:00:39 26955 5
原创 搜索引擎的检索模型-查询与文档的相关度计算
1. 检索模型概述 搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。 判断网页内容是否与用户査询相关,这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的理论基础,为量化相关性提供了一种数
2012-09-17 14:12:09 24335 1
原创 搜索引擎-处理查询
我们从用户的角度来看,用户不关心什么索引结构是倒排还是签名文件,也不需要知道相关排序算法。用户提交了查询,就需要获取满意的搜索结果。这个搜索结果就是搜索引擎是否提供有效的服务。1.查询流程查询流程图:1)用户提交查询2)分析查询 查询预处理: 1. 一般过滤掉助词或者标点符号之类,如中文的“的”,英文'The' . 另外对中文做分词处理获取检
2012-09-14 18:19:40 6929 2
原创 倒排索引-搜索引擎的基石
1.概述 在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引起,他它并不能满足其特殊要求: 1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量 ,面对如此海量数据 ,使得数据库系统很难有效的管理。 2)数据操作简单:搜索引擎使用的数据操作简单 ,一般而言 ,只需要
2012-09-12 16:47:11 22571 1
原创 搜索引擎-倒排索引基础知识
搜索引擎的索引1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。
2012-09-11 19:49:48 97180 22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人