自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (3)
  • 收藏
  • 关注

原创 安装第三方库出现 Python version 2.7 required, which was not found in the registry

装第三方库出现 Python version 2.7 required, which was not found in the registry建立一个文件 register.py 内容如下. 然后执行该脚本.## script to register Python 2.0 or later for use with win32all# and other extensions

2015-08-21 23:03:52 756

原创 configure: error: no acceptable cc found in $PATH

今天按照工具的时候报错[root@VM_39_253_centos lrzsz-0.12.20]# ./configure&& make && make installloading cache ./config.cachechecking for a BSD compatible install... /usr/bin/install -cchecking whether build en

2015-08-19 22:22:37 12726 1

原创 linux安装rzsz

最近要研究一些技术,需要常用本地文件上传到虚拟机的服务器,而红帽子的rz/sz默认没有安装所以需要手工安装才可以。这里说明下rz:该命令用于从本地选择文件上传到服务器。sz:将选定的文件发送到本地机器。官网https://ohse.de/uwe/software/lrzsz.html下载网址https://ohse.de/uwe/releases/lrzsz-0.12.

2015-08-17 15:41:59 1712

原创 postgresql 9.4.4 安装

因为最近要做个数据研究,需要把数据入库,开源数据库中,同学们一般可能都会选择mysql,不过mysql 的一些函数能是在太累,因此我这边换成使用起来与oracle 更为相似的postgresql,近来这个数据库也是极其热门,上升速度很快。下面做个编译与安装介绍,以下内容基本都来自德哥分享(http://blog.163.com/digoal@126/)的文档,感谢德哥的分享。

2015-08-16 22:25:15 7816

转载 Hadoop参数汇总

本篇问转载于文章 [http://segmentfault.com/a/1190000000709725](http://segmentfault.com/a/1190000000709725)关于hadoop2 的参数配置相当全,感谢作者timger

2015-07-22 17:31:32 1323 1

原创 Linux启动时,检测磁盘失败问题解决

Linux启动时,检测磁盘失败问题解决注:本篇无技术含量,纯灌水 某次玩红帽5 linux 虚拟机的时候,脚踢了机箱电源,主机突然断电,重启系统时,系统报错,报检测磁盘失败 当时没看说明,直接重启。。后面无论重启几次都是最终回到这个页面报错,好傻B。看了下报错的说明,然后查询了下资料,解决方案如下: 界面最下面要求你输入root密码,输入进入,输入fsck -a 命令 来检查不一致的文件系统

2015-07-21 13:53:25 5188

原创 研究机器学习

算法我也是半路出家,因为工资的关系,我参加了一些数据挖掘的项目,例如推荐算法与客户细分,但是锁掌握的知识还远远不够这篇博客 给了一个学习列表,我决定好好一个一个学习,感觉博主JerryLead 的整理,谢谢http://www.cnblogs.com/jerrylead/tag/Machine%20Learning/default.html?page=1偏最小二乘法回归(P

2015-02-06 10:23:57 628

转载 理解矩阵

很棒的文章,赞理解矩阵一:转载自:http://blog.csdn.net/myan/article/details/647511前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性代数的时候不被那位强势的学生认为是神经病,还是比较难的事情。可怜的chen

2015-02-05 17:13:58 515 1

原创 Storm 实时计算分布式锁 Curator的使用

Curator是Netflix开源的一套ZooKeeper客户端框架. Netflix在使用ZooKeeper的过程中发现ZooKeeper自带的客户端太底层, 应用方在使用的时候需要自己处理很多事情,包括:1、封装ZooKeeper client与ZooKeeper server之间的连接处理;2、提供了一套Fluent风格的操作API;3、提供ZooKeeper各种应用场景(rec

2015-02-04 19:16:01 1800

原创 一个有点意思的SQL问题(连续的序列并且值相同的用区间来体现)

之前接到一个SQL问题,很久没写SQL了,自己还是有点胆怯,但是由于题目十分有意思,所以就接下了需求。题目是:连续的序列并且值相同的用区间来体现测试数据最终体现的结果,即连续的序列并且值相同的用区间来体现考虑SQL的效率,这里我给出了解法,主要还是使用分析函数来确定断点,用max(),min()这个聚合函数来表现连续with lead_lag as(selec

2015-02-03 14:01:04 1769 2

原创 PDM逆向工程

很多时间,我们在做数据项目的时候,需要使用PDM做模型设计,但如果数据模型比较大而多的时候,PDM繁琐的输入就会使得模型设计的效率显得十分低下。这个时候我们就希望十分能够直接将数据库中的表结构导入到PDM之中,这样,我们就可以节省数据模型输入的时间。刚好PDM提供了一个逆袭工程的功能,能够解决该问题。在下面中我们用DB2作为数据库例子1.连接数据库工具栏-> Databas

2015-02-03 12:57:24 861 4

原创 关于Kafka 的消息日志Offset 的了解

之前在做Kafka 整合Storm的时候,因为对Kafka 不是很熟,考虑过这样的一个场景问题,针对一个Topic,Kafka消息日志中有个offset信息来标注消息的位置,Storm每次从kafka 消费数据,都是通过zookeeper存储的数据offset,来判断需要获取消息在消息日志里的起始位置。而Kafla 有个参数log.retention.hours会根据设定的小时,来清理日志文件

2014-12-18 17:31:44 19478 3

原创 Storm 与Kafka 整合

这里的目标是kafka 负责生产数据,storm 消费数据并将结果输出一、wurstmeister/storm-kafka-0.8-plus这里用的是引进别人家写的整合代码,因为使用的人也比较多,下面是项目地址https://github.com/wurstmeister/storm-kafka-0.8-plus下载、解压以及将这个目录下的代码添加进项目storm-kafka-

2014-12-05 16:38:48 7056 1

原创 Storm 入门与安装

一、Storm 简介具体不说了,反正Storm是个实时的、分布式以及具备高容错的计算系统,Hadoop 流计算版本。我们拿他来做大数据实时计算的。官网简介地址:http://storm.apache.org/documentation/Tutorial.html而下面这篇文章是我第一次认识Storm,感谢作者http://blog.csdn.net/mousever

2014-11-26 21:10:20 1484

原创 Kafka 安装与入门

kafka是一个消息订阅和发布的系统,因为项目的需要这边要安装部署,这里讲述下kafka的安装和一些简单的入门操作一、kafka安装kafka的下载地址http://kafka.apache.org/downloads.html这边用的是kafka_2.9.2-0.8.1.1.tgz,因为这个是官网推荐的稳定版本具体地址http://apache.fayea.com/apach

2014-11-18 16:14:30 1419

原创 安装ZooKeeper

ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(DistributedSynchronization)、命名服务(NamingService)、集群维护(GroupMaintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在于通过

2014-11-05 16:55:15 1224

原创 Flume NG 学习笔记(十) Transaction、Sink、Source和Channel开发

一、Transaction interfaceTransaction接口是基于flume的稳定性考虑的。所有主要的组件(sources、sinks、channels)都必须使用Flume Transaction。我们也可以理解Transaction接口就是flume的事务,sources和sinks的发送数据与接受数据都是在一个Transaction里完成的。从上图中可以看出,一个Tr

2014-10-31 15:51:26 5336

原创 Flume NG 学习笔记(九)Flune Client 开发

文章内容还是来自官网http://flume.apache.org/FlumeDeveloperGuide.html由于在实际工作中,数据的生产方式极具多样性,Flume 虽然包含了一些内置的机制来采集数据,但是更多的时候用户更希望能将应用程序和flume直接相通。所以这边运行用户开发应用程序,通过IPC或者RPC连接flume并往flume发送数据。一、RPC client interf

2014-10-30 15:58:29 8603 3

原创 Flume NG 学习笔记(八)Interceptors(拦截器)测试

一、Event Serializersfile_roll sink 和hdfs sink 都支持EventSerializer接口1.1、Body Text SerializerBody TextSerializer,别名:text。这个拦截器将把事件的body部分写入到输出流中而不需要任何转换或者修改。事件的header将直接被忽略。下面是官网配置:Prope

2014-10-29 16:52:09 10471 1

原创 Flume NG 学习笔记(七)Sink Processors(故障转移与负载均衡)测试

Sink groups允许组织多个sink到一个实体上。 Sink processors能够提供在组内所有Sink之间实现负载均衡的能力,而且在失败的情况下能够进行故障转移从一个Sink到另一个Sink。简单的说就是一个source 对应一个Sinkgroups,即多个sink,这里实际上与第六节的复用/复制情况差不多,只是这里考虑的是可靠性与性能,即故障转移与负载均衡的设置。下面是官方配

2014-10-29 11:30:38 8774 1

原创 Flume NG 学习笔记(六)Selector(复用与复制)测试

学习心得(三)流配置中介绍多路复用流的时候,有说到Flume支持从一个源发送事件到多个通道中,这被称为事件流的复用。这里需要在配置中定义事件流的复制/复用,选择1个或者多个通道进行数据流向。而关于selector配置前面也讲过:.sources..selector.type= replicating这个源的选择类型为复制。这个参数不指定一个选择的时候,默认情况下它复制复

2014-10-24 17:45:55 7834

原创 Flume NG 学习笔记(五)Sinks和Channel配置

一、HDFS SinkFlume Sink是将事件写入到Hadoop分布式文件系统(HDFS)中。主要是Flume在Hadoop环境中的应用,即Flume采集数据输出到HDFS,适用大数据日志场景。目前,它支持HDFS的文本和序列文件格式,以及支持两个文件类型的压缩。支持将所用的时间、数据大小、事件的数量为操作参数,对HDFS文件进行关闭(关闭当前文件,并创建一个新的)。它还可以对事源的机

2014-10-24 15:43:25 16565

原创 Flume NG 学习笔记(四)Source配置

首先、这节水的东西就比较少了,大部分是例子。一、Avro SourceAvro端口监听并接收来自外部的Avro客户流的事件。当内置Avro 去Sinks另一个配对Flume代理,它就可以创建分层采集的拓扑结构。官网说的比较绕,当然我的翻译也很弱,其实就是flume可以多级代理,然后代理与代理之间用Avro去连接下面是官网给出的source的配置,加粗的参数是必选,描述就不解释了。

2014-10-23 17:24:08 16454 4

原创 Flume NG 学习笔记(三)流配置

在通过flume采集日志数据的时候,一般都是通过flume 代理从日志源或者日志客户端采集数据到flume代理中,然后再由flume代理送到目标存储.上图中就是每个一级flume代理负责从webserv采集数据,然后再由一个二级flume代理进行日志汇总。

2014-10-23 10:53:02 3317

原创 Flume NG 学习笔记(二)单机与集群Flume 配置

下面的内容基本来自官网:http://flume.apache.org/FlumeUserGuide.html英语好的就不用看我这里来。。。本文使用的是最新版本的apache flume 1.5,安装完Flume然后测试下Flume是否可以用,在Flume目录下用以下语句测试:bin/flume-ng agent -n$agent_name -c conf -f conf/flume-co

2014-10-22 14:08:35 4281

原创 Flume NG 学习笔记(一)简介

一、简介Flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据的简单处理,并写到各种数据接收方的能力。Flume在0.9.x and 1.x之间有较大的架构调整,1.x版本之后的改称Flume NG(next generation),0.9.x的称为Flume OG(originalgeneration)。对于O

2014-10-21 15:57:08 3094 1

mysql-connector-java-5.1.38.tar.gz

2016-04-04

rzsz安装文件 lrzsz-0.12.20.tar.gz

对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能

2014-12-06

lrzsz-0.12.20.tar.gz

对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能

2014-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除