- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 Spark入门实战指南——Spark生态圈+第一个Spark程序
一、Spark及其生态圈简介 1.目前大数据处理场景有以下几个类型: 1. 复杂的批量处理(BatchData Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时; 2. 基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间 3. 基于实时数据流的数据处理(Streaming Data
2016-08-29 16:04:39 2237
转载 Spark入门实战指南——Spark运行架构
2016/8/29 1、Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; lDriver: main()函数创建SparkContext(通常用SparkContext
2016-08-29 10:27:59 1198
原创 Spark集群搭建+基于zookeeper的高可用HA
1. Spark高可用HA 1.1安装zookeeper 1.1.1下载zookeeper-3.4.6 1.1.2 解压zookeeper 1.1.3 修改ZOOKEEPER_HOME/PATH 1.1.4 zookeeper-3.4.6]$ mkdirlogs /data ①cpconf/zoo_sample.cfg conf/zoo.cfg ②修改zoo.cfg中的
2016-08-26 19:58:11 9930
原创 Eclipse下用MAVEN创建spark项目
8/26/2016 1. Idea第一个Spark程序WordCount_Clustert 在hadoop5上成功运行。(昨天在hadoopadmin上一直未成功的原因是spark-1.1.0-bin-2.2.0较spark-1.6.0-bin-hadoop2.6版本低,未含有其中的reduceByKey函数) 注:程序中的textFile("hdfs://219.226.86.155
2016-08-26 10:36:08 2630
QtDesigner模式识别系统范例——自行车需求量预测系统
2017-12-09
tomcatPluginV331 for eclipse
2016-11-09
tomcatPlugin for eclipse
2016-10-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人