大数据
文章平均质量分 52
红豆和绿豆
这个作者很懒,什么都没留下…
展开
-
Hbase+blink数据实时处理
Hbase的基本结构的代码 package hbase1; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.HTableInterface; import org.apache.hadoop.hbase.client.HTablePool; public class HbaseCon原创 2021-02-27 15:23:27 · 156 阅读 · 0 评论 -
datax3数据同步
(1)地址:GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。 (2)介绍的文章就比较多了,在这里想分析一下 具体是如何设计的以及使用到哪些巧妙的设计 1、自定义json的结构,然后映射到Configuration中,通过Configuration中的方法可以方便的获取对应JOB的配置参数,插件的自定义参数,任务的配置参数, 2、插件+框架的组合 实现基本的扩展,为了防止不同组件之间类的隔离,使用自定义类加载器,在jobContainer启动的..原创 2021-10-16 15:57:07 · 453 阅读 · 0 评论 -
用户实时行为数据采集
用户实时行为数据采集如下: 1.web、wap通过埋点实时发送用户行为数据至后端server, app直接调用http接口,server通过logback直接输出日志文件 2.flume通过tail命令监控日志文件变化 3.flume通过生产者消费者模式将tail收集到日志推送至kafka集群 4.kafka根据服务分配topic,一个topic可以分配多个group,一个转载 2016-11-30 19:51:29 · 4374 阅读 · 0 评论 -
google最新开源的tensorFlow
https://www.tensorflow.org/ 主要用于机器学习,数据挖掘,语音识别原创 2016-08-24 20:03:20 · 624 阅读 · 0 评论 -
ZooKeeper实现分布式队列Queue
http://www.aboutyun.com/thread-6819-1-1.html 前言 ZooKeeper是一个分步式的协作系统,何为协作,ZooKeeper价值又有何体现。关于ZooKeeper的基本使用,请参考:ZooKeeper伪分步式集群安装及java编程命令操作 目录 分布式队列 设计思路 程序实现 1. 分布式队列 队列有很多种产品,转载 2016-08-06 11:09:06 · 1275 阅读 · 1 评论 -
Kafka+Spark Streaming+Redis实时计算整合实践
http://shiyanjun.cn/archives/1097.html 基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0转载 2016-08-05 16:26:33 · 1780 阅读 · 0 评论 -
Flume+Kafka+SparkStreaming整合
1.Flume介绍. 2 1.1 Flume数据源以及输出方式. 2 1.2 Flume的核心概念. 2 1.3 Flume结构. 2 1.4 Flume安装测试. 3 1.5 启动flume4 2.Kafka介绍. 4 2.1 Kafka产生背景. 4 2.2 Kafka部署结构. 4 2.3 Kafka集群架构. 4 2.4 Kafk转载 2016-08-05 15:58:54 · 835 阅读 · 0 评论 -
如何快速搭建HBase结群
网址保留: Build and install Ambari 2.2.2 from Source原创 2016-08-16 15:24:32 · 480 阅读 · 0 评论