spark
文章平均质量分 93
hywelZhang
小菜鸟
展开
-
Spark Configuration
Spark PropertiesSpark properties能够控制大部分的程序设置,并且可以为每个程序分开配置。properties能够通过SparkConf直接设置然后传入到SparkContext。SparkConf允许用户配置一些公用属性(例如:master URL和程序名称),也允许使用set()方法,传入key-value键值对来设置。例如,我们初始化一个拥有两个线程的应用程序翻译 2016-10-19 11:46:16 · 1612 阅读 · 0 评论 -
Spark Streaming + kafka
方法一 createStream基于Receiver 这种方法基于Receiver来接收数据,使用kafka高级自定义API实现。和所有的receivers一样,这种接收方式通过Receiver从kafka接收数据存储到Spark executors节点,然后运行job通过Spark Streaming处理数据 然而,默认配置下,这种方法在执行失败时会丢失数据(查看Receiver可靠性)。翻译 2016-04-05 17:37:02 · 877 阅读 · 1 评论 -
Spark Streaming + Kafka
基于kafka低阶api的Direct访问方式(No Receivers)我的原文地址https://hywelzhang.github.io/2017/04/01/Spark-Streaming-kafka.html关于使用Direct Approach (No Receivers)方式来接收Kafka数据的好处我就不多讲了。长话短说: 1. 防止数据丢失。基于Receiver的方式,会启用一个原创 2017-04-01 19:38:54 · 1646 阅读 · 1 评论 -
【Maven】构建多模块maven开发项目
更多请参考我的博客:https://hywelzhang.github.io/2017/03/27/Maven-Multi-modules.html为什么需要构建一个多模块开发框架?项目为什么需要划分成模块: 1. 当项目越来越大,每个模块越来越可能会引用一些相同的jar包,但是版本不一致,很容易造成项目的版本冲突 2. 项目模块之间用到的一些util类,在其他项目也可能会用到。将util独立成原创 2017-03-27 11:09:30 · 467 阅读 · 0 评论 -
spark WebService调用
WebServicescala调用webservice原创 2017-09-04 21:18:11 · 2874 阅读 · 0 评论 -
大数据集群之CDH版本搭建完整版
如果感兴趣,可以移驾我的博客,原文地址:https://hywelzhang.github.io/2017/11/03/%E9%9B%86%E7%BE%A4%E6%90%AD%E5%BB%BA-CDH%E6%90%AD%E5%BB%BA.html大数据集群 ,集群搭建,hadoop搭建,hive搭建,spark搭建原创 2017-11-03 20:45:32 · 10956 阅读 · 0 评论