Boys,Grils,Friends! My name is Jinsuo.Shi. 一个不正经的大数据开发工程师,目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。
个人大数据技术栈:DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…
个人在学习领域:Python,Pandas数据分析,PowerBI数据可视化,机器学习,算法等…
个人兴趣爱好:广泛阅读,旅游远行,运动健身,王者农药…
【今日重点:大数据学习第二阶段stage5:组件学习-数据分析组件的学习,今天在公司划了一整天的水,看完学不会,阔以再看一遍!】
目录
总体一览图
1.Spark
1.1 简述
1.2 任务提交
- 提交任务命令
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://xxx:7077 \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 2 \
--queue default \
./examples/jars/spark-examples_2.11-2.2.0.jar \
100
- 进入spark shell
spark-shell \
--master spark://xxx:7077 \
--executor-memory 1g \
--total-executor-cores 2
1.3 使用
1.3.1 SparkCore
spark的算子在此:
1.3.2 SparkSQL
1.3.3 SparkStreaming
1.3.4 StructuredStreaming
两个实例代码分享
- socket
import org.apache.