大数据
文章平均质量分 68
cigg153
大数据开发
展开
-
从源码看flume采集的数据是如何进入到kafka主题的同一分区
00 背景在实际开发过程中,会遇到希望将采集的数据进入到kafka主题的同一分区中的需求场景,为消费者消费数据提供便利,例如,同一会员的消费信息、浏览信息等等。此篇主题是探讨flume采集的数据如何进入到kafka主题的同一分区,并且希望能够在为类似需求场景提供解决方案的时候,提供可复制的思路,起到举一反三的效果。01 工具flume官网flume源码kafka集群flume0...原创 2018-10-07 16:04:48 · 1766 阅读 · 0 评论 -
任务调度工具之cron
任务调度工具之cron00 背景我们经常需要设置任务在某个时间或每隔一段时间运行。这时候任务调度工具可以解决问题此类定时调度任务场景问题。本篇介绍Linux系统中的cron任务调度工具。01 cron介绍在linux系统中,有一个cron表文件,它存储了执行脚本路径或者命令和执行脚本时间。cron任务调度工具便是通过它来实现定时调度任务。那么如何创建cron任务呢?cron任务是存在于...原创 2018-10-14 17:14:15 · 953 阅读 · 0 评论 -
Storm作为新消费者对接Kafka 0.10.x+版本
Storm应用场景—作为新消费者对接Kafka 0.10.x+版本(一)00 背景随着Kafka版本的升级,Storm作为消费者对接Kafka 0.10.x+版本的方式上,与之前存在差异,现将新的方式记录下来,为以后遇到使用Storm实时处理新版Kafka数据的场景时提供参考。01 架构简介架构如下图所示。使用Flume组件采集数据时,采用双层架构,第一层的作用是采集,第二层的作用是聚...原创 2018-10-21 01:26:46 · 2115 阅读 · 0 评论 -
Spark算子常规训练一
应用场景一:统计单词总长度,以及类似场景/** * * 统计单词总长度,以及类似场景 * map应用 * * @author ccc */public class HelloWorldMap implements Serializable { public static void main(String[] args) { SparkConf sparkC...原创 2018-10-25 23:38:41 · 269 阅读 · 0 评论 -
实时计算组件-flink本地开发环境搭建
本篇记录搭建flink本地开发环境的过程,使用的flink版本为1.5。00 下载安装、启动一、JDK版本要求想要运行flink,JDK版本需要是JDK8+,如果版本低于8,需要进行升级噢。二、下载安装、启动从下载页面下载一个二进制文件,根据自己的实际情况,选择Hadoop/Scala组合版本。如果是使用本地文件系统的话,选择任何Hadoop版本都可以。1.点击flink版本查看fl...原创 2018-11-25 13:41:53 · 7294 阅读 · 1 评论 -
数据传输工具-Sqoop
一、背景在实际开发场景中,数据需要在Hadoop和关系型数据库之间来回传输,可以使用Sqoop工具来实现。例如,源数据存储在MySQL或者Oracle关系型数据库中,需要将源数据抽取到HDFS或者Hive中,又或者结果数据存储在HDFS或者Hive中,需要将结果数据加载到MySQL或者Oracle关系型数据库中,这些场景均可以由Sqoop工具实现。数据抽取的时候涉及到两种方式,一种是全量抽取...原创 2019-03-07 00:48:40 · 1046 阅读 · 0 评论 -
Kafka知识点记录
Kafka知识点记录consumer订阅topic之后,当consumer调用poll(Long)方法的时候,会自动加入消费者组,然后Kafka为consumer分配partition,接着Kafka将partion中的消息发送给consumer,consumer接收partition中的消息,提交offset。partition中的消息都有一个offset,offset是patiti...原创 2019-07-09 16:38:14 · 173 阅读 · 0 评论 -
DataX使用记录
DataX使用记录DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。00特性DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件...原创 2019-06-29 19:33:27 · 566 阅读 · 0 评论