顾晓艳-CSDN博客

原创安装第三方库出现 Python version 2.7 required, which was not found in the registry

装第三方库出现 Python version 2.7 required, which was not found in the registry建立一个文件 register.py 内容如下. 然后执行该脚本.## script to register Python 2.0 or later for use with win32all# and other extensions

2015-08-21 23:03:52 756

原创 configure: error: no acceptable cc found in $PATH

今天按照工具的时候报错[root@VM_39_253_centos lrzsz-0.12.20]# ./configure&& make && make installloading cache ./config.cachechecking for a BSD compatible install... /usr/bin/install -cchecking whether build en

2015-08-19 22:22:37 12726 1

原创 linux安装rzsz

最近要研究一些技术，需要常用本地文件上传到虚拟机的服务器，而红帽子的rz/sz默认没有安装所以需要手工安装才可以。这里说明下rz：该命令用于从本地选择文件上传到服务器。sz：将选定的文件发送到本地机器。官网https://ohse.de/uwe/software/lrzsz.html下载网址https://ohse.de/uwe/releases/lrzsz-0.12.

2015-08-17 15:41:59 1712

原创 postgresql 9.4.4 安装

因为最近要做个数据研究，需要把数据入库，开源数据库中，同学们一般可能都会选择mysql,不过mysql 的一些函数能是在太累，因此我这边换成使用起来与oracle 更为相似的postgresql,近来这个数据库也是极其热门，上升速度很快。下面做个编译与安装介绍，以下内容基本都来自德哥分享（http://blog.163.com/digoal@126/）的文档,感谢德哥的分享。

2015-08-16 22:25:15 7816

转载 Hadoop参数汇总

本篇问转载于文章 [http://segmentfault.com/a/1190000000709725](http://segmentfault.com/a/1190000000709725)关于hadoop2 的参数配置相当全，感谢作者timger

2015-07-22 17:31:32 1323 1

原创 Linux启动时，检测磁盘失败问题解决

Linux启动时，检测磁盘失败问题解决注：本篇无技术含量，纯灌水某次玩红帽5 linux 虚拟机的时候，脚踢了机箱电源，主机突然断电，重启系统时，系统报错，报检测磁盘失败当时没看说明，直接重启。。后面无论重启几次都是最终回到这个页面报错，好傻B。看了下报错的说明，然后查询了下资料，解决方案如下: 界面最下面要求你输入root密码，输入进入，输入fsck -a 命令来检查不一致的文件系统

2015-07-21 13:53:25 5188

原创研究机器学习

算法我也是半路出家，因为工资的关系，我参加了一些数据挖掘的项目，例如推荐算法与客户细分，但是锁掌握的知识还远远不够这篇博客给了一个学习列表，我决定好好一个一个学习，感觉博主JerryLead 的整理，谢谢http://www.cnblogs.com/jerrylead/tag/Machine%20Learning/default.html?page=1偏最小二乘法回归（P

2015-02-06 10:23:57 628

转载理解矩阵

很棒的文章，赞理解矩阵一：转载自：http://blog.csdn.net/myan/article/details/647511前不久chensh出于不可告人的目的，要充当老师，教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显，chensh觉得，要让自己在讲线性代数的时候不被那位强势的学生认为是神经病，还是比较难的事情。可怜的chen

2015-02-05 17:13:58 515 1

原创 Storm 实时计算分布式锁 Curator的使用

Curator是Netflix开源的一套ZooKeeper客户端框架. Netflix在使用ZooKeeper的过程中发现ZooKeeper自带的客户端太底层, 应用方在使用的时候需要自己处理很多事情，包括：1、封装ZooKeeper client与ZooKeeper server之间的连接处理;2、提供了一套Fluent风格的操作API;3、提供ZooKeeper各种应用场景(rec

2015-02-04 19:16:01 1800

原创一个有点意思的SQL问题（连续的序列并且值相同的用区间来体现）

之前接到一个SQL问题，很久没写SQL了，自己还是有点胆怯，但是由于题目十分有意思，所以就接下了需求。题目是：连续的序列并且值相同的用区间来体现测试数据最终体现的结果，即连续的序列并且值相同的用区间来体现考虑SQL的效率，这里我给出了解法，主要还是使用分析函数来确定断点，用max(),min()这个聚合函数来表现连续with lead_lag as(selec

2015-02-03 14:01:04 1769 2

原创 PDM逆向工程

很多时间，我们在做数据项目的时候，需要使用PDM做模型设计，但如果数据模型比较大而多的时候，PDM繁琐的输入就会使得模型设计的效率显得十分低下。这个时候我们就希望十分能够直接将数据库中的表结构导入到PDM之中，这样，我们就可以节省数据模型输入的时间。刚好PDM提供了一个逆袭工程的功能，能够解决该问题。在下面中我们用DB2作为数据库例子1.连接数据库工具栏-> Databas

2015-02-03 12:57:24 861 4

原创关于Kafka 的消息日志Offset 的了解

之前在做Kafka 整合Storm的时候，因为对Kafka 不是很熟，考虑过这样的一个场景问题，针对一个Topic,Kafka消息日志中有个offset信息来标注消息的位置，Storm每次从kafka 消费数据，都是通过zookeeper存储的数据offset，来判断需要获取消息在消息日志里的起始位置。而Kafla 有个参数log.retention.hours会根据设定的小时，来清理日志文件

2014-12-18 17:31:44 19478 3

原创 Storm 与Kafka 整合

这里的目标是kafka 负责生产数据，storm 消费数据并将结果输出一、wurstmeister/storm-kafka-0.8-plus这里用的是引进别人家写的整合代码，因为使用的人也比较多，下面是项目地址https://github.com/wurstmeister/storm-kafka-0.8-plus下载、解压以及将这个目录下的代码添加进项目storm-kafka-

2014-12-05 16:38:48 7056 1

原创 Storm 入门与安装

一、Storm 简介具体不说了，反正Storm是个实时的、分布式以及具备高容错的计算系统，Hadoop 流计算版本。我们拿他来做大数据实时计算的。官网简介地址：http://storm.apache.org/documentation/Tutorial.html而下面这篇文章是我第一次认识Storm，感谢作者http://blog.csdn.net/mousever

2014-11-26 21:10:20 1484

原创 Kafka 安装与入门

kafka是一个消息订阅和发布的系统，因为项目的需要这边要安装部署，这里讲述下kafka的安装和一些简单的入门操作一、kafka安装kafka的下载地址http://kafka.apache.org/downloads.html这边用的是kafka_2.9.2-0.8.1.1.tgz，因为这个是官网推荐的稳定版本具体地址http://apache.fayea.com/apach

2014-11-18 16:14:30 1419

ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（DistributedSynchronization）、命名服务（NamingService）、集群维护（GroupMaintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过

2014-11-05 16:55:15 1224

原创 Flume NG 学习笔记（十） Transaction、Sink、Source和Channel开发

一、Transaction interfaceTransaction接口是基于flume的稳定性考虑的。所有主要的组件（sources、sinks、channels)都必须使用Flume Transaction。我们也可以理解Transaction接口就是flume的事务，sources和sinks的发送数据与接受数据都是在一个Transaction里完成的。从上图中可以看出，一个Tr

2014-10-31 15:51:26 5336

原创 Flume NG 学习笔记（九）Flune Client 开发

文章内容还是来自官网http://flume.apache.org/FlumeDeveloperGuide.html由于在实际工作中，数据的生产方式极具多样性，Flume 虽然包含了一些内置的机制来采集数据，但是更多的时候用户更希望能将应用程序和flume直接相通。所以这边运行用户开发应用程序，通过IPC或者RPC连接flume并往flume发送数据。一、RPC client interf

2014-10-30 15:58:29 8603 3

原创 Flume NG 学习笔记（八）Interceptors（拦截器）测试

一、Event Serializersfile_roll sink 和hdfs sink 都支持EventSerializer接口1.1、Body Text SerializerBody TextSerializer，别名：text。这个拦截器将把事件的body部分写入到输出流中而不需要任何转换或者修改。事件的header将直接被忽略。下面是官网配置：Prope

2014-10-29 16:52:09 10471 1

原创 Flume NG 学习笔记（七）Sink Processors（故障转移与负载均衡）测试

Sink groups允许组织多个sink到一个实体上。 Sink processors能够提供在组内所有Sink之间实现负载均衡的能力，而且在失败的情况下能够进行故障转移从一个Sink到另一个Sink。简单的说就是一个source 对应一个Sinkgroups，即多个sink,这里实际上与第六节的复用/复制情况差不多，只是这里考虑的是可靠性与性能，即故障转移与负载均衡的设置。下面是官方配

2014-10-29 11:30:38 8774 1

原创 Flume NG 学习笔记（六）Selector（复用与复制）测试

学习心得（三）流配置中介绍多路复用流的时候，有说到Flume支持从一个源发送事件到多个通道中，这被称为事件流的复用。这里需要在配置中定义事件流的复制/复用，选择1个或者多个通道进行数据流向。而关于selector配置前面也讲过：.sources..selector.type= replicating这个源的选择类型为复制。这个参数不指定一个选择的时候，默认情况下它复制复

2014-10-24 17:45:55 7834

原创 Flume NG 学习笔记（五）Sinks和Channel配置

一、HDFS SinkFlume Sink是将事件写入到Hadoop分布式文件系统（HDFS）中。主要是Flume在Hadoop环境中的应用，即Flume采集数据输出到HDFS，适用大数据日志场景。目前，它支持HDFS的文本和序列文件格式，以及支持两个文件类型的压缩。支持将所用的时间、数据大小、事件的数量为操作参数，对HDFS文件进行关闭（关闭当前文件，并创建一个新的）。它还可以对事源的机

2014-10-24 15:43:25 16565

原创 Flume NG 学习笔记（四）Source配置

首先、这节水的东西就比较少了，大部分是例子。一、Avro SourceAvro端口监听并接收来自外部的Avro客户流的事件。当内置Avro 去Sinks另一个配对Flume代理，它就可以创建分层采集的拓扑结构。官网说的比较绕，当然我的翻译也很弱，其实就是flume可以多级代理，然后代理与代理之间用Avro去连接下面是官网给出的source的配置，加粗的参数是必选，描述就不解释了。

2014-10-23 17:24:08 16454 4

原创 Flume NG 学习笔记（三）流配置

在通过flume采集日志数据的时候，一般都是通过flume 代理从日志源或者日志客户端采集数据到flume代理中，然后再由flume代理送到目标存储.上图中就是每个一级flume代理负责从webserv采集数据,然后再由一个二级flume代理进行日志汇总。

2014-10-23 10:53:02 3317

原创 Flume NG 学习笔记（二）单机与集群Flume 配置

下面的内容基本来自官网：http://flume.apache.org/FlumeUserGuide.html英语好的就不用看我这里来。。。本文使用的是最新版本的apache flume 1.5，安装完Flume然后测试下Flume是否可以用，在Flume目录下用以下语句测试：bin/flume-ng agent -n$agent_name -c conf -f conf/flume-co

2014-10-22 14:08:35 4281

原创 Flume NG 学习笔记（一）简介

一、简介Flume是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据的简单处理，并写到各种数据接收方的能力。Flume在0.9.x and 1.x之间有较大的架构调整，1.x版本之后的改称Flume NG(next generation)，0.9.x的称为Flume OG（originalgeneration）。对于O

2014-10-21 15:57:08 3094 1

顾晓艳的专栏