自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

heiyeluren的blog(黑夜路人的开源世界)

公众号:heiyeluren2012 / github.com/heiyeluren

  • 博客(868)
  • 资源 (13)
  • 收藏
  • 关注

原创 【原创】PHP 7内核之HashTable实现

PHP开发的主干已经切换到大版本7了,这个版本Zend引擎改变很大,可以说是一个全新的版本,因此新的Zend引擎被命名为NG。在这个大版本中变量以及hash表变动也很大

2015-03-14 15:20:30 6007 1

转载 [转]基于mysql数据库binlog的增量订阅&消费中间件:Canal

背景早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务,从此开启了一段新纪元。ps. 目前内部使用的同步,已经支持mysql5.x和oracle部分版本的日志解析基于日志增量订阅

2015-03-14 14:55:08 5134

转载 [转]机器学习工具:scikit-learn/Weka

开源机器学习工具scikit-learn入门Scikit-Learn是基于python的机器学习模块,基于BSD开源许可证。这个项目最早由DavidCournapeau 在2007 年发起的,目前也是由社区自愿者进行维护。Scikit-Learn的官方网站是http://scikit-learn.org/stable/,在上面可以找到相关的Scikit-Learn的资源,模块下载,文档,例程等等。

2015-03-12 18:28:06 5566

转载 [转]机器学习算法库:liblinear/LibShortText

SVM原理简介:最大间隔分类器SVM是一种二类分类模型,其求解目标在于确定一个分类的超平面,以最大化特征空间上的间隔。分类超平面的确定只取决于少数的样本信息,这些关键的样本被称之为支持向量Support Vector,这也是SVM—支持向量机名称的由来。首先我们举一个二维空间的小例子,并假设样本是线性可分的,这样我们就可以在二维空间里划一条直线(高维空间的超平面在二维空间表现为直线),完全分开所有

2015-03-12 18:15:35 6496

转载 [转]微信、陌陌等著名IM软件设计架构详解

对微信、陌陌等进行了分析,发出来分享一下(时间有些久了)有兴趣的同学可以加入群:369511307。电量:对于移动设备最大的瓶颈就是电量了。因为用户不可能随时携带电源,充电宝。所以必须考虑到电量问题。那就要检查我们工程是不是有后台运行,心跳包发送时间是不是合理。流量:对于好多国内大部分屌丝用户来说可能还是包月30M,那么我们必须站在广大用户角度来考虑问题了。一个包可以解决的就一个包。网络:这个也是

2015-03-11 18:32:27 6362 1

转载 [转]Linux块设备加速缓存bcache和dm-cache:使用SSD来加速服务器

dm-cache 与 bcache在 LSFMM 2013 峰会上,Mike Snitzer, Kent Overstreet, Alasdair Kergon, 和 Darrick Wong 共同主持了一个讨论,内容是关于两个彼此独立的块设备层缓存方案 —— dm-cache 和 bcache。 Snitzer 首先介绍了 3.9 kernel 引入的 dm-cache。这个方案使用率内核中的

2015-03-10 21:51:08 16148

转载 [转]libsvm介绍及使用

支持向量机简介  支持向量机SVM是从线性可分情况下的最优分类面提出的。所谓最优分类,就是要求分类线不但能够将两类无错误的分开,而且两类之间的分类间隔最大,前者是保证经验风险最小(为0),而通过后面的讨论我们看到,使分类间隔最大实际上就是使得推广性中的置信范围最小。推广到高维空间,最优分类线就成为最优分类面。    支持向量机是利用分类间隔的思想进行训练的,它依赖于对数据的预处理,即,在更高维的空

2015-03-10 21:16:13 4977

转载 [转]自动化运维工具Ansible

自动化运维工具Ansible详细部署==========================================================================================一、基础介绍======================================================================================

2015-03-09 11:02:23 5257

转载 [转]文档去重算法:SimHash和MinHash

simhash与重复信息识别来源:http://grunt1223.iteye.com/blog/964564在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的

2015-03-07 16:47:24 62010 5

转载 [转]百度搜索研发部:日志分析方法概述

日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表着用户

2015-03-06 22:20:40 2423

转载 [转]主流列式数据库评测:InfiniDB和MonetDB

【IT168 专稿】在本系列的前2篇文章(主流列式数据库评测:南大通用GBase 8a和主流列式数据库评测之Infobright)中,列式存储数据库GBase 8a和Infobright给我们的印象是虽然在数据压缩上面有一些优势,整体查询性能还是落后于传统数据库的,下面要介绍的Calpont公司的基于MySQL的InfiniDB和学术组织开发的MonetDB在性能方面有更好的表现。  一、安装

2015-03-06 22:14:59 4694

转载 [转]大数据分析的十二个解决方案

当数据以成百上千TB不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。大数据分析迎来大时代全球各行各业的组织机构已经意识到,最准确的商务决策来自于事实,而不是凭空臆想。这也就意味着,他们需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技术支持。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。极具挑战性的是,

2015-03-06 22:05:27 5278

转载 [转]RocksDB介绍:一个比LevelDB更彪悍的引擎

RocksDB基本介绍:嵌入式数据库RocksDB是Facebook基于LevelDB开发的一种嵌入式Key-value存储系统,该数据库能够充分利用闪存的性能,大大提升应用服务器的速度。Rocksdb. 这个开源引擎是基于 Google 的 leveldb 1.5 版本, 但据称做了许多优化, 性能相对 leveldb 有了很大的提升, 而且解决了 leveldb 主动限制写的问题.Facebo

2015-03-06 21:28:29 17505 1

转载 [转]大数据时代的 9 大Key-Value存储数据库

在过去的十年中,计算世界已经改变。现在不仅在大公司,甚至一些小公司也积累了TB量级的数据。各种规模的组织开始有了处理大数据的需求,而目前关系型数据库在可缩放方面几乎已经达到极限。 一个解决方案是使用键值(Key-Value)存储数据库,这是一种NoSQL(非关系型数据库)模型,其数据按照键值对的形式进行组织、索引和存储。KV存储非常适合不涉及过多数据关系业务关系的业务数据,同时能有效减少读写磁盘的

2015-03-06 18:43:50 1889

转载 [转]机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实 践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读 有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我并不直接回答

2015-02-04 11:21:21 6577 1

转载 [转]内容匹配广告投放技术

ps: 本文是百度文库课程《计算广告学之内容匹配广告&展示广告原理、技术和实践》的课程笔记,感谢百度!内容匹配广告投放技术1:网盟概述&工程架构课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d第一章:内容匹配广告投放技术:网盟概述&工程架构这章讲述内容匹配广告投放技术的概要,包括基本概念,系统框架,以及应用技术。四大角色

2015-02-03 02:10:30 4155 1

转载 [转]搜索引擎的文档相关性计算和检索模型(BM25/TF-IDF)

搜索引擎的检索模型-查询与文档的相关度计算1. 检索模型概述      搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。       判断网页内容是否与用户査询相关,这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的

2015-02-03 01:14:18 50192 1

原创 【原创】360购物小蜜的背后:探推荐引擎初探

360购物小蜜的是一款用户在访问电商网站的时候,给用户找到最低价的相关商品和用户可能会喜欢的商品的小软件,本文主要是介绍360购物小蜜背后的推荐引擎的基本工作机制和相关算法。

2015-02-02 13:51:59 3872

转载 [转]基于大规模语料的新词发现算法

对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢?这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西—— 未登录词。中文没有首字母大

2015-01-22 18:35:51 3079

原创 【原创】聊天机器人与自动问答技术

聊天机器人属于自动问答(Question Answering)的一个方向,对它的研究很大一部分源自于图灵测试,本文主要探讨一下基本的聊天机器人技术的基本原理和实现机制。

2015-01-21 11:18:43 20728

转载 [转]NFA/DFA算法

作者:陈梓瀚  (http://www.cppblog.com/vczh/)1、问题概述随着计算机语言的结构越来越复杂,为了开发优秀的编译器,人们已经渐渐感到将词 法分析独立出来做研究的重要性。不过词法分析器的作用却不限于此。回想一下我们的老师刚刚开始向我们讲述程序设计的时候,总是会出一道题目:给出一个填入 了四则运算式子的字符串,写程序计算该式子的结果。除此之外,我们有时候建立了比较复杂的配置文

2015-01-19 21:42:58 6466

转载 [转]数据挖掘 - 分词入门

数据挖掘 - 分词入门摘要:谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,难以下手、非常头大!我们可以跳

2015-01-09 15:16:10 1885 1

原创 【原创】NLP中的中文分词技术

分词就是对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。是自然语言处理(NLP)的一种基础技术形态,中文因为特殊性,跟英文等自然语言处理方式不同,本文主要是探讨中文的分词技术。

2015-01-09 14:46:37 13384 1

转载 [转]Trie树优化算法:Double Array Trie 双数组Trie

Trie逻辑结构      Trie是一种常见的数据结够,可以实现前缀匹配(hash是不行的),而且对于词典搜索来说也是O(1)的时间复杂度,虽然比不上Hash,但是空间会省不少。       比如下图表示了包含“pool, prize, preview, prepare, product, progress"的一个Trie              Trie的逻辑结构:每个圆圈都表示一个状态,比

2015-01-08 16:33:56 8702 1

原创 【原创】一步一步理解Paxos算法

Paxos算法是Lamport于1990年提出的一种基于消息传递的一致性算法。由于算法难以理解起初并没有引起人们的重视,使Lamport在八年后重新发表到TOCS上。即便如此paxos算法还是没有得到重视,2001年Lamport用可读性比较强的叙述性语言给出算法描述。可见Lamport对paxos算法情有独钟。近几年paxos算法的普遍使用也证明它在分布式一致性算法中的重要地位。06年google的三篇论文初现“云”的端倪,其中的chubby锁服务使用paxos作为chubby cell中的一致性算法,p

2015-01-05 19:06:56 8902 1

转载 [转]王帅:深入PHP内核

深入PHP内核关于作者:王帅,腾讯企业QQ SaaS团队Leader。深入PHP内核(一)——弱类型变量原理探究摘要:PHP作为一门简单而强大的语言,能够提供很多Web适用的语言特性,而从本期《问底》开始,王帅将从实践出发,带你弄清PHP内核中一些常用的部分,比如这里的“弱类型变量原理”。PHP是一门简单而强大的语言,提供了很多Web适用的语言特性,其中就包括了变量弱类型,在弱类型机制下,你能够给

2014-12-30 10:43:05 4188

转载 [转]徐汉彬:PHP7和HHVM的性能之争

【导读】徐汉彬曾在阿里巴巴和腾讯从事4年多的技术研发工作,负责过日请求量过亿的Web系统升级与重构,目前在小满科技创业,从事SaaS服务技术建设。最近,PHP7和HHVM的性能之争成为了一个讨论热点,它们都在提升PHP执行性能方面取得了突破性的进展。这篇文章,参考了两个社区的技术新进展,为大家科普和介绍它们的性能之争。  PHP语言的排名变化根据“TIOBE编程语言排行榜”(榜单虽然统计方式有局限

2014-12-30 10:31:10 2522

原创 【原创】开源爬虫Scrapy的学习及应用

开源爬虫Scrapy的学习及应用作者:swb (360电商技术组)  一、 背景目前我们正在使用的一套爬虫框架是使用java开发的一套复杂的分布式电商垂直爬虫,它主要优点是流程完善、可用性高、易部署。缺点是强定制化、维护成本略高、通用性不是很好。基于这套爬虫的缺点,小组内考虑是否可以开发一套通用性好,而且易扩展、部署和维护成本低的爬虫来提供给其他人员或者部门来使用。就这样当时开始研究Scrapy这

2014-12-26 12:17:20 8508

转载 [转]数据挖掘十大经典算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随

2014-12-05 15:44:21 3614

转载 [转]开源日志系统比较:scribe、chukwa、kafka、flume

1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文从设计架构,负载均衡,可

2014-11-27 21:55:02 2413 1

转载 [转]Go vs Erlang

Go vs Erlang因为 云巴 系统对高并发、低延迟的需求,我们对各个语言、平台做了很多的调研比较工作。这自然就包括致力于开发高并发应用的 Go 和 Erlang。并发Go 对高并发的支持通过 goroutine 实现。goroutine 可以理解为轻量级的 线程(thread)。同一个 Go 应用创建的 goroutine 共享地址空间。Erlang 的高并发通过轻量级 进程(process

2014-11-27 11:46:20 2368

转载 [转]Finagle:一个支持多协议的RPC系统

Finagle是一个协议不可知的,异步的,用于 JVM 的 RPC 系统,它使得在 Java、Scala 或任何基于JVM 的语言重构建鲁棒的客户端和服务器非常容易。在 Twitter.com上面即使是渲染最简单的网页也需要十多个说着不同协议的网络服务的合作。比如,为了渲染首页,应用程序需要向社交网络图(SocialGraph)服务、Memcached、数据库、以及许多其它网络服务发出请求。他们每

2014-11-25 14:01:20 5735

转载 [转]列式数据库之infobright以及架构

文章lai

2014-11-23 01:07:25 3130

转载 [转]数据分析与处理之二:Leveldb 实现原理

郑重声明:本篇博客是自己学习 Leveldb 实现原理时参考了郎格科技系列博客整理的,原文地址:http://www.samecity.com/blog/Index.asp?SortID=12,只是为了加深印象,本文的配图是自己重新绘制的,大部分内容与原文相似,大家可以浏览原始页面 :-),感兴趣的话可以一起讨论 Leveldb 的实现原理!LevelDb日知录之一:LevelDb 101  说起

2014-11-20 11:17:50 1761

转载 [转]数据分析与处理之一:大规模数据分析架构

随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对海量数据的分析已经成为一个非常重要且紧迫的需求。大数据分析的分类按照数据分析的实时性,分为实时数据分析和离线数据分析两种。实时分析实时数据分析一般用于金融、移动网络、物联网和互联网B2C等产品,往往要求系统在数秒内返回上亿行数据的分析,从而才

2014-11-20 11:16:29 2935

转载 [转]高压缩空间占用的 Hyper LogLog 算法

Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5KThis is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurately estimate the card

2014-11-18 16:16:23 24577 1

原创 【原创】Redis内核之事件驱动

Redis内核之事件驱动作者:cf (360电商技术组)概述Redis实现了自己的事件驱动,与开源事件库libevent、libev一样,都是基于I/O多路复用技术实现的。出于性能和代码精炼两方面考虑,redis未像memcache一样使用libevent或libev成熟的事件库(libevent/libev为了其通用性增加了很多扩展功能降低了使用它的性能,且代码量相比redis来说是大很多的)。

2014-11-17 19:09:01 2758

原创 【原创 】高性能网络库Libevent初探

高性能网络库Libevent初探作者:zza (360电商技术组)libevent是一个基于事件触发的轻量级高性能开源网络库,很多著名的软件如Chromium、memcached、Netchat等都是基于libevent开发的。 之所以受到如此多的关注和青睐,主要是libevent具有的一些显著亮点:1) 事件驱动(event-driven),超高的性能;2) 轻量级,专注于网络,短小精干;3) 

2014-11-14 16:35:55 2878 1

原创 【原创】无锁编程技术及实现

无锁编程技术及实现作者:jx (360电商技术组) 1.基于锁的编程的缺点 多线程编程是多CPU系统在中应用最广泛的一种编程方式,在传统的多线程编程中,多线程之间一般用各种锁的机制来保证正确的对共享资源(share resources)进行访问和操作。在多线程编程中只要需要共享某些数据,就应当将对它的访问串行化。比如像++count(count是整型变量)这样的简单操作也得加锁,因为即便是增量操作

2014-11-04 13:51:25 18553 1

原创 【原创】高性能网络编程技术

高性能网络编程技术作者:jmz (360电商技术组)如何使网络服务器能够处理数以万计的客户端连接,这个问题被称为C10K Problem。在很多系统中,网络框架的性能直接决定了系统的整体性能,因此研究解决高性能网络编程框架问题具有十分重要的意义。1. 网络编程模型在C10K Problem中,给出了一些常见的解决大量并发连接的方案和模型,在此根据自己理解去除了一些不实际的方案,并做了一些整理。1.

2014-10-27 15:51:17 6460

PHP&Go程序员的职业规划-黑夜路人.1.2.pptx

2020年3月份的时候,给我们公司大概1900名技术伙伴进行了在线的这个分享,分享内容主要是讨论一个PHP/Go 程序员如何进行个人的发展和规划,每个技术人员在发展过程中都会遇到这个问题,也从一个程序员的视角进行了个人经验总结和思考。 今天把相应分享PPT分享,希望给每一位PHP/Go程序员有一些参考意义。

2020-07-08

Bash新手指南

Linux/Unix shell Bash 编程入门到精通的手册,中文版,chm, 非常详细的描述了bash的语法和实例,能够让你成为Shell编程高手。

2007-09-11

The.Definitive.Guide.to.SQLite

The.Definitive.Guide.to.SQLite,PDF格式,目前市面上比较难找的比较全面讲解SQLite的书籍,英文,不过适合想研究和使用SQLite的用户

2007-08-09

PHP.5.Power.Programming

PHP.5.Power.Programming,chm格式,英文版,目前市面上最深入的讲解PHP 5高级技术的书籍,值得一读

2007-08-09

PHP安全基础中文版

PHP安全基础中文版,CHM格式,由PHPChina组织人翻译的,是入门的PHP安全教程,原书是:OReilly 公司的《Essential.PHP.Security》

2007-08-09

PHP设计模式指南中文版

PHP设计模式指南中文版,CHM,由国内的PHPChina组织人翻译的,非常不错。

2007-08-09

PHP 5 dvanced OOP and Design Patterns

PHP 5 dvanced OOP and Design Patterns,英文版,PDF格式

2007-08-09

Ruby中文参考手册

Ruby中文参考手册,HTML格式,我已经打包成rar,主要是关于Ruby1.8.1的中文参考手册,囊括了大部分的函数、对象和接口的中文帮助信息

2007-08-09

Ruby用户指南

Ruby用户指南,HTML格式,我已经打成了rar包,主要是关于ruby入门的一些知识,比较简单

2007-08-09

Perl编程思想

Perl编程思想,关于Perl编程的入门和高级篇,PDF格式,书籍写的非常好。

2007-08-09

Linux C函数参考手册

Linux C函数参考手册.rar,包含Word和PDF版本,我已经打成了rar包,方便在windows或者linux上查看,确实是个不错的手册

2007-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除