【大数据】Kafka
【大数据】Kafka
北京小辉
余辉,硕士毕业于中科院,从事IT行业12年。专注于大数据、云数据、用户画像、推荐算法。在数据团队担任过的角色:研发、架构师、负责人、讲师。数据知识产权:出版大数据书籍【1】本,论文【2】篇,软著【6】篇,专利【65】篇。
展开
-
Kafka:无丢失将kafka的值读取到hbase
目录1、需求2、代码1、需求功能:将kafka数据读取到HBASE中 步鄹: 1、提取topicName在zookeeper中的offset 2、循环读取topicName中的offset且对比zookeeper中的offset 3、将提取的数据转为DF 4、存储到Hbase中备注:博文中使用到了Zookeeper的使用,请查考下面博原创 2016-10-31 19:44:25 · 5701 阅读 · 0 评论 -
Kafka:Kafka的生产和消费(Java版本)
目录:1、代码2、POM3、展示—————————————————————————————1、代码package com.donews.data.kafkatest;import java.io.BufferedReader;import java.io.FileReader;import java.util.Properties; import java.util.concurrent.T原创 2017-01-23 16:08:57 · 4206 阅读 · 1 评论 -
Kafka:无丢失提取kafka的值,详解kafka的消费过程
目录:1、需求2、代码步鄹3、代码展现4、pom.xml文件5、结果展现——————————————————————————————————–1、需求前提:将org.apache.spark.streaming.kafka.KafkaCluster这个类抽出来变成KafkaClusterHelper * 需求:* 1、将kafka中的数据无丢失提取,且存到本地 2、详解Kafka读取数据步鄹原创 2017-02-06 13:05:53 · 6473 阅读 · 0 评论 -
SparkStreaming无丢失读取Kafka且转为DataFrame
目录1、需求2、步鄹3、日志格式4、代码展示5、运行结果展示6、Kafka Manager 和 Zookeeper展示———————————————————————————————1、需求1、SparkStreaming读取Kafka数据,且将offset存储到Zookeeper中 2、控制每次读取数据的最大值 3、将读取出来的数据,转为DataFrame2、步鄹1、通过zkClient.rea原创 2017-02-09 10:00:30 · 6540 阅读 · 4 评论 -
Kafka文件的存储机制
目录:1、Kafka是什么2、前言3、Kafka文件存储机制–实际运行效果4、总结————————————————————————————————–1、Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin原创 2017-02-14 09:58:03 · 3785 阅读 · 0 评论 -
Kafka获取文件源码跟踪
目录:1、执行步鄹2、结果展现学习kafka提前参考:Kafka文件的存储机制http://blog.csdn.net/silentwolfyh/article/details/55095146Kafka:无丢失提取kafka的值,详解kafka的消费过程http://blog.csdn.net/silentwolfyh/article/details/54891764———————————————原创 2017-02-16 12:47:55 · 1074 阅读 · 0 评论 -
KafkaUtils.createStream接收数据流程
KafkaUtils.createStream接收数据流程原创 2017-06-30 08:20:48 · 4952 阅读 · 0 评论 -
kafka:python获取kafka的值
需求:获取通过python查看kafka中的值#!/user/local/python2.6.6/bin/python# -*- coding: utf-8 -*-# __project__ = src# __author__ = kassien@163.com# __date__ = 2016-09-21 # __time__ = 12:49#kafka的节点kafka_list =原创 2016-10-19 16:58:41 · 8414 阅读 · 0 评论 -
kafka基本使用实战
Kafka路径/opt/cloudera/parcels/KAFKAKafka TopicName 查看 bin/kafka-topics.sh --list --zookeeper localhost:2181Kafka TopicName 删除bin/kafka-topics.sh --zookeeper localhost:2181 --topic原创 2016-04-11 13:57:50 · 1190 阅读 · 0 评论 -
Kafka主要参数详解
原文档地址:http://kafka.apache.org/documentation.html############################# System ##############################唯一标识在集群中的ID,要求是正数。broker.id=0#服务端口,默认9092port=9092#监听地址,不设为所有地址host.nam转载 2016-05-03 19:14:25 · 1004 阅读 · 0 评论 -
kafka删除topicName 提示marked for deletion
kafka 删除topic 提示marked for deletion[root@shadoop11 kafka_2.10-0.9.0.0]# kafka-topics.sh --delete --zookeeper localhost:2181 --topic yuhui-001 Topic yuhui-001 is marked for deletion. Note: This wil原创 2016-05-03 19:09:37 · 16075 阅读 · 0 评论 -
HttpServer发送数据到kafka
目录1、需求2、框架结构图和步鄹图3、代码结构4、代码展现———————————————————————-1、需求1.1、解析路径,将路径的最后一个字符串作为Appkey; 1.2、数据缓存,当Kafka无法正常访问时在本地Cache目录缓存数据; 1.3、安全验证,对请求的appkey进行合法性验证(签名验证待定); 1.4、自动更新appkey列表,每间隔一段时间获取一次最新的appkey原创 2017-02-15 09:53:16 · 5404 阅读 · 2 评论