铁猴-CSDN博客

转载 Memcached使用总结之：Memcache知识点梳理

Memcached概念： Memcached是一个免费开源的，高性能的，具有分布式对象的缓存系统，它可以用来保存一些经常存取的对象或数据，保存的数据像一张巨大的HASH表，该表以Key-value对的方式存在内存中。官网下载地址： http://www.memcached.org/运行环境： linux，BSD，windows都可跑协议理论：http://code.six

2016-06-08 12:47:41 6414 1

原创 Memcached使用总结之:使用Python操作memcache

Python连接memcached的库有很多，处于简单以及高效的原则，最终选择了pymemcache,优点完全实现了memcached text协议对于send/recv操作可以配置timeout支持"noreply"特性，该可行可以先出的提高写的速度使序列化/反序列化更简单可以将网络异常，memecached错误当成是缓存丢失安装pymemcachepip insta

2016-06-08 12:01:55 14939 1

转载 ZeroMQ消息模型代码实现（Python版本）

ZeroMQ 的背景介绍引用官方的说法： “ZMQ (以下 ZeroMQ 简称 ZMQ)是一个简单好用的传输层，像框架一样的一个 socket library，他使得 Socket 编程更加简单、简洁和性能更高。是一个消息处理队列库，可在多个线程、内核和主机盒之间弹性伸缩。ZMQ 的明确目标是“成为标准网络协议栈的一部分，之后进入 Linux 内核”。现在还未看到它们的成功。但是，它无疑是极具

2016-05-12 15:04:49 14499

原创在Windows环境下搭建Nginx文件服务器(简单实用版)

为了解决项目组内容应用，打算把本地的e:tools目录共享出来，具体操作步骤如下下载安装包：http://nginx.org/download/nginx-1.9.15.zip解压缩修改配置文件nginx.conf，在server部分添加以下内容location /tools { alias E:\Tools; allow

2016-04-22 13:10:24 18259

原创 ubuntu 下的supervisor 配置入门

Linux的后台进程运行有好几种方法，例如nohup，screen等，但是，如果是一个服务程序，要可靠地在后台运行，我们就需要把它做成daemon，最好还能监控进程状态，在意外结束时能自动重启。supervisor就是用Python开发的一套通用的进程管理程序，能将一个普通的命令行进程变为后台daemon，并监控进程状态，异常退出时能自动重启。安装superviso

2016-04-20 17:58:55 2800

原创 Spark RDD 的Transformation与Action的常用功能总结（Python版本）

本文主要演示如何通过Python对Spark的RDD进行编程，只列出了一些常用的RDD操作接口，完整的功能，请参考官方文档演示环境说明RDD的详细介绍请参考：http://blog.csdn.net/eric_sunah/article/details/49705145操作系统：Ubuntu 12.04部署环境：1.6单机版演示环境：pyspark测试语言：Py

2016-04-01 16:26:29 2974

原创 Ubuntu 下 vim+Ctags+Taglist+WinManager工具的安装

安装依赖包apt-get install vimapt-get install ctagsapt-get install vim-scriptsvim-addons install taglistvim-addons install winmanager修改~/.vimrclet Tlist_Use_Right_Window=1 “列表放在屏幕的右侧

2016-03-31 17:55:57 3044

原创程序员的机器学习入门笔记（二）：Python常用库的介绍，及安装(Centos 6.5)

在Python的世界中为数据挖掘产生了很多实用的库，本文主要列出一些常见库的说明，安装，以及使用的小例子，文中的安装以及演示环境都是基于Centos 6.5 的Desktop Mini版进行演示Numpy介绍NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表（nested list structure)结

2016-03-09 21:55:15 1586 1

转载程序员的机器学习入门笔记（一）：基本概念介绍

一、概述随着计算机技术的发展，各行各业都开始采用计算机及相应的信息技术进行管理和运营，这使得企业生成、收集、存贮和处理数据的能力大大提高，数据量与日俱增。企业数据实际上是企业的经验积累，当其积累到一定程度时，必然会反映出规律性的东西；对企业来，堆积如山的数据无异于一个巨大的宝库。在这样的背景下，人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏，使其成为有用的知识，指导企业的

2016-03-04 15:07:49 1639

原创 Centos 6.5下以RPM方式安装MySQL5.6.16（详细版）

本文主要介绍RPM方式安装MySQL5.6.16的方法，详细步骤如下,请注意不同的版本可能会有不同的安装方法检查MySQL及相关RPM包，是否安装，如果有安装，则移除（rpm –e 名称）[root@purecentos Linux]# rpm -qa | grep -i mysqlmysql-libs-5.1.71-1.el6.x86_64[root@pur

2016-01-27 17:45:54 1436

转载 Spark入门之十：聚类算法之kmeans的简介以及使用

聚类算法聚类，Cluster analysis，有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能的相似，簇与簇之间的 object尽可能的相异。聚类算法是机器学习（或者说是数据挖掘更合适）中重要的一部分，除了最为简单的K-Means聚类算法外，较常见的还有：层次法（CURE、CHAMELEON等）、网格算法（STING、WaveClust

2015-11-17 17:34:20 6824

转载 Spark入门之九：机器学习简介

机器学习概念在维基百科上对机器学习提出以下几种定义：“ 机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能 ” 。“ 机器学习是对能通过经验自动改进的计算机算法的研究 ” 。“ 机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。 ” 一种经常引用的英文定义是： A computer program

2015-11-17 17:28:01 2730

原创 Spark入门之八：Spark Streaming 的原理以及应用场景介绍

什么是Spark StreamingSpark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用 Spark的高度抽象原语如：map、re

2015-11-10 17:38:08 9282

原创 Hive入门学习之三：Hive客户端的连接

在Hive入门学习之二：Hive 的部署中讲述了如何搭建一个Hive的环境，本文主要讲解基于metastore启动多个client的方法要求说明centos01中已经配置好了hive环境，需要在该机器上启动metastore服务，接下来需要在centos02,centos03中启动客户端具体步骤拷贝centos01的hive环境到centos02,centos03scp -r

2015-11-08 11:41:24 6154 1

原创 Hive入门学习之二：Hive 的部署

本文主要介绍Hive 的远程安装模式（如果Hive客户端比较多，在每个客户端都安装MySQL服务还是会造成一定的冗余和浪费，这种情况下，就可以更进一步，将MySQL也独立出来，将元数据保存在远端独立的MySQL服务中）版本介绍JDK:1.7.0_55Hadoop:2.6.0Hive:1.2.1具体步骤配置好一个外部的Mysql,并创建hive的database: creat

2015-11-08 11:35:54 1240

转载 Hive入门学习之一：Hive的简述与架构

Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式

2015-11-08 11:31:01 4230

转载 Spark入门之七：了解SparkSQL运行计划及调优

优化过程中常用到方法查看查询的整个运行计划 scala>query.queryExecution 查看查询的Unresolved LogicalPlan scala>query.queryExecution.logical查看查询的Analyzed LogicalPlanscala>query.queryExecution.analyzed查看优化后的LogicalPlan

2015-11-07 21:10:48 6845

原创 Spark入门之六：SparkSQL实战

介绍SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTa

2015-11-07 21:07:31 3415

转载 Spark入门之五：SparkSQL的原理以及架构

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效

2015-11-07 21:03:47 7783

原创 Spark 入门之四：Spark任务调度架构

以Spark集群的方式运行standlone 的运行：bin/spark-shell --master spark://hadoop1:7077 --executor-memory 3g运行在Yarn上yarn-client的运行：bin/spark-shell --master yarn-client --executor-memory 3g --num-ex

2015-11-07 20:51:36 1331

原创 Spark 入门之三：Spark运行框架

基本名词Job ：包含多个 Task 组成的并行计算，往往由 Spark action 催生。Stage ： Job 的调度单位，对应于 TaskSet 。TaskSet ：一组关联的、相互之间没有 shuffle 依赖关系的任务组成的任务集。Task ：被送到某个 executor 上的工作单元运行流程简单流程完整流程DAGScheduler的

2015-11-07 20:47:23 1370

转载 Spark 入门之二：Spark RDD详解

RDD是什么 RDD：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。为什么会产生RDD传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操

2015-11-07 20:42:50 4137 2

原创 Spark 入门之一：CentOS 6.5 下Spark 1.4 的安装以及配置

机器配置集群全部使用VM虚拟机环境进行部署主机名角色配置centos01NameNode，JournalNode，Master，ResourceManager，QuorumPeerMain2G，1核，20Gcentos02Worker，NodeManager，DataNode，Q

2015-11-07 20:32:34 2563

原创在Centos 中将zookeeper设置成开机启动

部署了Zookeeper之后，当需要重启机器时，开机后往往需要花一点时间对zookeeper集群进行启动，由于zookeeper没有主节点的概念，且一个节点的重启不会对集群造成什么影像，所以可以考虑把 zookeeper设置成开机启动，具体流程如下准备工作切换到/etc/rc.d/init.d/目录下创建zookeeper文件：touch zookeeper更新权限：chm

2015-08-29 15:34:25 6137

原创 Zookeeper在Kafka中的应用

Kafka介绍Kafka的介绍可参考：http://blog.csdn.net/eric_sunah/article/details/44201711Zookeeper在Kafka中的使用从上面的介绍可以看出Kafka是一个分布式的消息系统,分布式主要体现在Producer,Broker,Consumer的分布式,下面章节主要讲解Zookeeper如何支持相关对

2015-07-15 13:30:18 9713

原创 Zookeeper 在Hadoop中的应用

Zookeeper 简介Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节

2015-06-23 21:06:25 4643

转载 Zookeeper架构学习（四）：ZAB协议

ZooKeeper内部有一个in-memory DB，表示为一个树形结构。每个树节点称为Znode(相关的代码在DataTree.java和DataNode.java中)客户端可以连接到zookeeper集群中的任意一台。对于读请求，直接返回本地znode数据。写操作则转换为一个事务，并转发到集群的Leader处理。Zookeeper提交事务保证写操作(更新

2015-06-11 18:03:29 1295

原创通过已有Nginx镜像创建私有仓库

想搭建一个私有的Docker仓库，查看了各种资料，大多是使用Nginx做代理，可是由于对于Nginx不熟悉，各种关于权限认证的问题，折腾了两天也没有搞定，后来无意在网上看到一篇使用已有镜像的方法,终于搞定了，原文参考：http://cloud.51cto.com/art/201412/458680_all.htm测试环境192.168.40.71 CoreOS 仓库服务器

2015-06-09 22:37:29 2064 1

原创 CoreOS环境下通过register镜像搭建私有仓库

Docker支持采用仓库（本处指的是registry）来支持镜像的分发和更新管理。这极大的便利了用户。官方提供了dockerhub网站来作为一个公开的集中仓库。然而，本地访问dockerhub速度往往很慢，并且很多时候我们需要一个本地的私有仓库只供网内使用。关于如何创建和使用本地仓库，其实已经有很多文章介绍了。但是这些文章要么内容已经过时，要么给出了错误的配置，导致无法正常创建仓库。本文

2015-06-07 18:02:38 2651

原创 Docker 使用方法总结之:管理工具 shipyard 的详细使用指南

Docker 的命令行就已经很好用了，如果非要加上基于 Web 的管理界面的话也有一些选择，如 DockerUI (Angular.js), Dockland (Ruby), Shipyard (Python/Django) 等，不过目前来看 Shipyard 项目要活跃一点，Shipyard 支持多 host，可以把多个 Docker host 上的 containers 统一管理；可以查看

2015-06-04 23:06:25 9228

原创 Docker 使用方法总结之：容器的连接

docker 中的容器互联是一个较为复杂的话题，详细内容将在后续章节中介绍，本文主要讲解容器的连接操作查看所有镜像启动Mysql容器启动Tomcat,并与Mysql_DB容器关联该操作的目的是，Tomcat的服务端口对外开放，Mysql不提供外部访问的方式，只通过TomcatServer的内部访问通过下面的命令实现Tomcat容器与Mysql的连接[ro

2015-05-27 16:23:09 3116

转载 Docker 使用方法总结之：容器的数据卷操作

1、Docker 容器下数据卷的理解一个数据卷就是经过特殊设计的,在一个或多个容器中通过UFS文件系统提供的一些特性实现数据持久化或共享.数据卷可以在容器之间共享和重复利用可以对数据卷里的内容直接进行修改对镜像的更新不会改变数据卷的内容卷会一直持续到没有容器使用他们1.1、添加一个数据卷可以使用带有 -v 参数的 docker run 命令给容器添加一个数据卷.[root

2015-05-27 16:19:41 8939

原创 Docker 使用方法总结之：容器的基本操作

启动容器core@localhost ~ $ docker runUsage: docker run [OPTIONS] IMAGE [COMMAND] [ARG...]Run a command in a new container -a, --attach=[] Attach to STDIN, STDOUT or STDERR. -c, --

2015-05-27 16:16:44 1507

转载使用Docker registry镜像创建私有仓库

转载自：http://blog.csdn.net/delphiwcdj/article/details/430998771 使用registry启动私有仓库的容器docker run -d -p 5000:5000 -v /root/my_registry:/tmp/registry registry说明：若之前没有安装registry容器则会自动下载并启动一个registry容器

2015-05-25 21:40:41 2344

转载 Zookeeper架构学习（三）:开源客户端框架Curator简介

转载自：http://macrochen.iteye.com/blog/1366136Curator是Netflix开源的一套ZooKeeper客户端框架. Netflix在使用ZooKeeper的过程中发现ZooKeeper自带的客户端太底层, 应用方在使用的时候需要自己处理很多事情, 于是在它的基础上包装了一下, 提供了一套更好用的客户端框架. Netflix在用ZooKeeper的过程中

2015-05-24 11:00:36 1741 1

原创 Zookeeper实践之：通过Zookeeper实现一个消费者进程分配程序

背景需要实现一个分布式监控程序，Agent把监控消息发送到Kafka,由消费者进程使用High Level API从Kafka获取消息需求随着Agent数量的增加，每秒产生的消息数量也在增加，考虑到High Level的API使消费者进程与分区的固定关系，所以需要使用Zookeeper来维护一个消费者的集群，使消费者可以根据Kafka分区的数量以及消费者集群的个数，动态的分配每

2015-05-24 10:42:35 3067

转载 Zookeeper架构学习(二)：通过现实世界描述Paxos算法

转载自：http://www.cnblogs.com/endsock/p/3480093.htmlPaxos分析最近研究paxos算法，看了许多相关的文章，概念还是很模糊，觉得还是没有掌握paxos算法的精髓，所以花了3天时间分析了libpaxos3的所有代码，此代码可以从https://bitbucket.org/sciascid/libpaxos 下载。对paxos算法有初

2015-05-20 09:17:41 1224

原创 Centos6.5 上Ansible 对Windows 管控

安装依赖包安装PyCrypto:http://blog.csdn.net/eric_sunah/article/details/45826933安装paramiko(http://blog.csdn.net/zyz511919766/article/details/18355795)安装pywinrm:pip install http://github.com/diyan/pywinrm/

2015-05-18 20:46:09 3968

转载 CentOS 编译安装 PyCrypto

转载自：http://bugcharmer.blogspot.com/2012/07/building-pycrypto-on-amazon-ec2.htmlStep 1 - Install gcc/make$ sudo yum install gcc$ sudo yum install makeThat was easy.Step 2 - Install

2015-05-18 20:41:33 6165 1

转载 Zookeeper 架构学习(一)：ACID、Data Replication、CAP与BASE

转载自：http://www.cnblogs.com/hustcat/archive/2010/09/07/1820970.htmlACID在传数据库系统中，事务具有ACID 4个属性(Jim Gray在《事务处理：概念与技术》中对事务进行了详尽的讨论)。(1)原子性（Atomicity）：事务是一个原子操作单元，其对数据的修改，要么全都执行，要么全都不执行。(2)一致性（Co

2015-05-18 20:07:02 1506