百度开源高性能RPC框架 sofa-pbrpc 简介sofa-pbrpc是基于Google Protocol Buffers 实现的RPC网络通信库,在百度公司各部门得到广泛使用,每天支撑上亿次内部调用。sofa-pbrpc基于百度大搜索高并发高负载的业务场景不断打磨,成为一套简单易用的轻量级高性能RPC框架。2014年sofa-pbrpc正式对外开源受到广大开发人员的关注,目前sofa-pbrpc已经在浪潮、金山、乐视等各大互联网公司产品
KMeans原理、调参及应用 一、前言KMeans是数据挖掘十大算法之一中,在数据挖掘实践中,我们也常常将KMeans运用于各种场景,因为它原理简单、易于实现、适合多种数据挖掘情景。二、原理KMeans的原理较为简单:以某种相似性度量为标准,确定样本的结构,即样本属于哪一个簇取决于该样本与哪一个簇的中心点最相似。算法步骤如下:1.决定要将样本分成几个簇,设为K;2.初始化K个簇的中心点;3.遍历每一
Hadoop MapReduce的shuffle过程 转载自http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html
HBase Coprocessors机制 What we have built is a framework that provides a library and runtime environment for executing user code within the HBase region server and master processes.
pymongo针对字段的一些操作 1.增加字段:collection.update({"_id":1},{"$set":{"new_field":0}}) #红色为查找条件,绿色为新增字段(当document中没有new_field这个字段时,则新增这个字段)2.删除字段:collection.update({"_id":1},{"$unset":{"new_field":1}}) #红色为查找条件,绿色为删除字段3.
hadoop-2.2.0+hive-0.11.0下整合RHive问题记录 rhive.env()问题:Default RServe List127.0.0.1warning: cant't connect to a Rserver at 127.0.0.1:6311Disconnected HiveServer and HDFS
hadoop2.2.0 unhelthy nodes:log-dirs turned bad hadoop2.2.0 web interface可用端口:50070,50075,8088(默认)遇到一个mapreduce job运行迟迟不出结果,到8088端口看,发现nodemanager检测到一个unhealthy nodegoogle之,得到如下信息:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoo
YARN工作原理 YARN由四大部分组成:ResourceManager、NodeManager、Container和ApplicationMaster,其中ResourceManager可看作是上一代Hadoop中的master,将NodeManager看作是slave,ResourceManger中包含两大组件:ApplicationManager和ResourceScheduler,其中ResourceMan
ubuntu12.04-32bit安装R、RHive 第一部分 安装R1.在/etc/apt/source.list文件中添加一个R安装包的入口:sudo vim /etc/apt/source.list在打开的文件中添加一行:deb http://ftp.ctex.org/mirrors/CRAN/bin/linux/ubuntu precise/(此处的precise是针对ubuntu12.04版本,其他对应版本见http://c
32位ubuntu12.04安装hadoop2.2.0伪分布式 1.VirtualBox下新建虚拟机ubuntu12.04 32bit2.root下安装jdk:apt-get install openjdk-7-jdk3.创建hadoop用户及hadoop组,赋予hadoop超级用户权限:sudo addgroup hadoopsudo adduser --ingroup hadoop hadoopvim /etc/sudoers
Domain Driven Design 领域驱动设计(Domain Driven Design)参考架构详解摘要本文将介绍领域驱动设计(Domain Driven Design)的官方参考架构,该架构分成了Interfaces、Applications和Domain三层以及包含各类基础设施的Infrastructure。本文会对架构中一些重要组件和问题进行讨论,给出一些分析结论。本文原文连接:http://blo
Service-Oriented Architecture SOA(service-orientedarchitecture,也叫面向服务的体系结构或面向服务架构)是指为了解决在Internet环境下业务集成的需要,通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。SOA是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,它应该独立于实现服务的硬件平台、操作系统和
学习系统地思考——《第五项修炼》读后感 要求:不少于2000字对全书内容的简要总结、对关键内容点的理解心得和主要收获等以署名博客方式发表,题目自拟,正文开始前显要位置注明“中国科学技术大学软件学院”+ 真实姓名 + “原创作品版权所有转载请注明出处”如有引用请使用引号“”括起来并注明参考文献出处中国科学技术大学软件学院梁婷原创作品版权所有转载请注明出处学习系统地思考——《第五项修炼》读后感
hadoop+hive+LAMP开发环境 安装环境神马的最烦人啦!!!新手上路,欢迎大侠们指教~~~~~项目:使用php开发hive的web应用总体架构:本项目的架构可分为两个部分:1.hadoop分布式平台+hive数据仓库;2.经典的LAMP(linux+apache+mysql+php)开发框架;其中1是提供大数据存储以及分布式计算,2是提供开发工具。在本次项目中要求使用php连接hi