![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据实战
码动乾坤
求知若饥,虚心若愚
展开
-
Spark之WordCount 在本地模式下运行
在本地模式下运行,必须设置 Master AppNamelocal模式下,不会有监控界面出现:object WordCountLocal { def main(args: Array[String]): Unit = { if (args.length != 2) { println( """ |cn.uhome.spark...原创 2020-01-07 15:07:29 · 409 阅读 · 1 评论 -
大数据实战之分布式发布订阅消息系统Kafka
kafka概述:官方文档:kafka.apache.org 和消息系统类似 消息中间件: 生产者和消费者 在生产者和消费者之间的一个缓冲区,生产者将产生的消息发送到kafka中,当消费者需要消息的时候,就去kafka中获取消息解决问题: 1):消费者宕机 2):生产者产生的消息过快,消费者来不及消费 从根本上解决消息丢失问题kafka架...原创 2018-11-27 00:07:37 · 417 阅读 · 0 评论 -
大数据实战之分布式日志收集框架Flume
如何解决我们的数据从其他的server上移动到Hadoop之上????\1)shell脚本 cp hadoop集群的机器上,然后上传到hdfs hadoop fs -put .... 缺点:如何做监控,如果有机器宕机怎么办 时效性不好 网络IO和磁盘IO开销很大 容错和负载均衡 2)flume 通过配置文件可以解决大部分业务场景的应用,还可以结合shell脚...原创 2018-11-27 00:06:22 · 251 阅读 · 0 评论 -
使用SparkStreaming完成词频统计,并将结果写入MySQL,黑名单过滤
foreachRDD 设计模式的使用dstream.foreachRDD 是一个强大的原语, 允许将数据发送到外部系统.但是, 了解如何正确有效地使用这个原语很重要. 避免一些常见的错误如下.通常向外部系统写入数据需要创建连接对象(例如与远程服务器的 TCP 连接), 并使用它将数据发送到远程系统.为此, 开发人员可能会无意中尝试在Spark driver 中创建连接对象, 然后尝试在Sp...原创 2018-11-26 18:19:02 · 1161 阅读 · 0 评论 -
Spark Streaming整合Flume&Kafka打造通用流处理基础架构
0.自动生成日志import org.apache.log4j.Logger;//模拟日志产生public class LoggerGenerator { private static Logger logger = Logger.getLogger(LoggerGenerator.class.getName()); public static void main(Str...原创 2018-11-26 18:14:37 · 277 阅读 · 0 评论 -
大数据实战之Spark Streaming整合Kafka
Receiver整合 1.启动ZK cd /home/hadoop/app/zookeeper-3.4.5-cdh5.7.0/bin/ ./zkServer.sh start 2.启动kafka cd /home/hadoop/app/kafka_2.11-0.10.0.1/bin ./kafka-server-start.sh -daemon /home/...原创 2018-11-27 00:13:22 · 214 阅读 · 0 评论 -
大数据实战之Spark Streaming整合Flume
SparkStreaming与flume做整合的时候,一定要先去官网上查看可兼容的版本号http://spark.apachecn.org/docs/cn/2.2.0/streaming-flume-integration.html一:Push方式整合:flume_push_streaming.confsimple-agent.sources = netcat-sourcesimpl...原创 2018-11-27 00:10:58 · 194 阅读 · 0 评论 -
大数据实战之Spark Streaming核心概念与编程
核心概念:StreamingContext: def this(sparkContext: SparkContext, batchDuration: Duration) = { this(sparkContext, null, batchDuration) } def this(conf: SparkConf, batchDuration: Duration) = ...原创 2018-11-27 00:09:04 · 200 阅读 · 0 评论