2015年07月_大数据技术进阶

10月 07月 06月 02月

转载分布式消息队列kafka系列介绍 — 核心API介绍及实例

原文地址：http://www.inter12.org/archives/834一 PRODUCER的API1.Producer的创建，依赖于ProducerConfigpublic Producer(ProducerConfig config);2.单个或是批量的消息发送public void send(KeyedMessage message);

2015-07-21 10:55:44 775

原创将文件从一台linux机器拷贝到多台的方法

首先你所操作的各台linux机器间必须设置了ssh免密码登录，具体方法可上网查看。将文件从一台linux机器拷贝到多台分为以下几个步骤：第一步：创建脚本文件remotecopy.sh#!/bin/bashwhile getopts f: OPT;do case $OPT in f|+f) files="$OPTARG $files" ;; *) echo "

2015-07-17 10:57:32 5435

转载 Flume NG之Interceptor简介

有的时候希望通过Flume将读取的文件再细分存储，比如讲source的数据按照业务类型分开存储，具体一点比如类似：将source中web、wap、media等的内容分开存储；比如丢弃或修改一些数据。这时可以考虑使用拦截器Interceptor。　　flume通过拦截器实现修改和丢弃事件的功能。拦截器通过定义类继承org.apache.flume.interceptor.Intercepto

2015-07-01 16:43:21 1144

转载 Flume NG 简介及配置实战

Flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志

2015-07-01 15:25:03 703

原创本地日志数据实时接入到hadoop集群的数据接入方案

1. 概述本手册主要介绍了，一个将传统数据接入到Hadoop集群的数据接入方案和实施方法。供数据接入和集群运维人员参考。1.1. 整体方案Flume作为日志收集工具，监控一个文件目录或者一个文件，当有新数据加入时，收集新数据发送给Kafka。Kafka用来做数据缓存和消息订阅。Kafka里面的消息可以定时落地到HDFS上，也可以用Spark Streaming来做实时处理，然后将处理

2015-07-01 14:27:23 4541

机器学习算法总结ppt

机器学习算法总结ppt机器学习算法总结ppt机器学习算法总结ppt机器学习算法总结ppt

2018-03-13

Hive编程指南[清晰，带目录版].pdf

Hive编程指南[清晰，带目录版].pdf Hive编程指南[清晰，带目录版].pdf

2018-03-13

Kafka简介.ppt

kafka简介架构说明生产者消费者broker kafka使用命令 ppt

2015-10-13

kafka性能测试工具

kafka性能测试工具,当我执行官方提供的kafka测试脚本，却报错没有找到ProducerPerformance，后来浏览一些代码文件，才发现没有把perf性能测试程序打包到kafka_2.x.0-0.8.x.x.jar发行版本中。

2015-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DF_XIAO的专栏

转载分布式消息队列kafka系列介绍 — 核心API介绍及实例

原创将文件从一台linux机器拷贝到多台的方法

转载 Flume NG之Interceptor简介

转载 Flume NG 简介及配置实战

原创本地日志数据实时接入到hadoop集群的数据接入方案

推荐系统从入门到spark案例实战

机器学习算法总结ppt

Hive编程指南[清晰，带目录版].pdf

Kafka简介.ppt

kafka性能测试工具

空空如也

转载 分布式消息队列kafka系列介绍 — 核心API介绍及实例

原创 将文件从一台linux机器拷贝到多台的方法

转载 Flume NG之Interceptor简介

转载 Flume NG 简介及配置实战

原创 本地日志数据实时接入到hadoop集群的数据接入方案

推荐系统从入门到spark案例实战

机器学习算法总结ppt

Hive编程指南[清晰，带目录版].pdf

Kafka简介.ppt

kafka性能测试工具

空空如也

转载分布式消息队列kafka系列介绍 — 核心API介绍及实例

原创将文件从一台linux机器拷贝到多台的方法

原创本地日志数据实时接入到hadoop集群的数据接入方案