- 博客(24)
- 收藏
- 关注
转载 spark sql 加载数据
Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3)将数据加载成RDDval masterLog = sc.textFile("file:///Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/logs/spark-arthurlance-org.apache...
2019-04-15 22:49:00 133
转载 Spark On Yarn 运行模式
在Spark中,支持4种运行模式:1)Local:开发时使用2)Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境3)YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度4)Mesos不管使用什么模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通...
2019-04-12 22:48:00 151
转载 hadoop离线数据处理架构
数据处理流程1)数据采集 Flume: web日志写入到HDFS2)数据清洗 脏数据 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架 清洗完之后的数据可以存放在HDFS(Hive/Spark SQL)3)数据处理 按照我们的需要进行相应业务的统计和分析 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架4)处理结果入库 结果...
2019-03-30 22:11:00 504
转载 Spark操作外部数据源--MySQL
操作MySQL的数据:spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparksql").option("dbtable", "sparksql.TBLS").option("user", "root").option("password", "root").option("driver", "c...
2019-03-30 18:09:00 166
转载 Spark操作外部数据源--parquet
处理parquet数据RuntimeException: file:/Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json is not a Parquet file val DEFAULT_DATA_SOURCE_NAME = SQLConfig...
2019-03-30 18:08:00 197
转载 DataFrame和RDD互操作的两种方式:
DataFrame和RDD互操作的两种方式:1)反射:case class 前提:事先需要知道你的字段、字段类型 2)编程:Row 如果第一种情况不能满足你的要求(事先不知道列)3) 选型:优先考虑第一种 1 package com.imooc.spark 2 3 import org.apache.spark.sql.types.{S...
2019-03-30 13:55:00 107
转载 DataFrame对比RDD
RDD里面Person看不到具体的内容哦,DataFrame可以看到name age height,这样,DataFrame就可以做更多的优化。RDD: java/scala ==> jvm python ==> python runtimeDataFrame: java/scala/python ==> Logic Plan转载于:htt...
2019-03-30 13:15:00 109
转载 HIVE环境搭建
1)Hive下载:http://archive.cloudera.com/cdh5/cdh/5/ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz2)解压 tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/3)配置 系统环境变量(~/.bahs_p...
2019-03-21 00:11:00 133
转载 YARN环境搭建
mapred-site.xml<property><name>mapreduce.framework.name</name><value>yarn</value></property>yarn-site.xml<property><name>yarn.n...
2019-03-21 00:10:00 93
转载 HADOOP环境搭建
1) 下载Hadoop http://archive.cloudera.com/cdh5/cdh/5/ 2.6.0-cdh5.7.0 wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz2)安装jdk 下载 解压到app目录:tar -zxvf jdk-7u51-linux-x64.tar...
2019-03-21 00:09:00 66
转载 HDFS架构概述
1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN)HDFS/YARN/HBase1个文件会被拆分成多个Blockblocksize:128M130M ==> 2个Block: 128M 和 2MNN:1)负责客户端请求的响应2)负责元数据(文件的名称、副本系数、Block存放的DN)的管理DN:1)存储用户的文件对应的数据块(...
2019-03-21 00:08:00 88
转载 资源调度框架YARN
YARN架构1 RM(ResourceManager) + N NM(NodeManager)ResourceManager的职责: 一个集群active状态的RM只有一个,负责整个集群的资源管理和调度1)处理客户端的请求(启动/杀死)2)启动/监控ApplicationMaster(一个作业对应一个AM)3)监控NM4)系统的资源分配和调度NodeManager:整个集群中有N...
2019-03-20 00:16:00 97
转载 flume kafka sparkStreaming 流程对接
流程示意图转载于:https://www.cnblogs.com/arthurLance/p/10545850.html
2019-03-17 10:42:00 133
转载 maven settings.xml 配置 --阿里源
1 <?xml version="1.0" encoding="UTF-8"?> 2 3 <!-- 4 Licensed to the Apache Software Foundation (ASF) under one 5 or more contributor license agreements. See the NOTICE ...
2019-03-16 10:59:00 385
转载 KafkaReceiverWordCount.scala 例子
package com.imooc.sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Spark...
2019-03-16 10:22:00 148
转载 SparkStream pom.xml配置
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o...
2019-03-16 10:15:00 126
转载 SparkStreaming 工作原理
Dstream 用来代表时间序列上的一连串RDD转载于:https://www.cnblogs.com/arthurLance/p/10486942.html
2019-03-06 23:38:00 95
转载 整合flume和kafka--实时数据采集
简单来说,kafka是消息的中间件。由生产者与消费者组成。用于缓冲数据。类似一个篮子。转载于:https://www.cnblogs.com/arthurLance/p/10453931.html
2019-02-28 23:26:00 85
转载 flume的作用
传输文件到hadoop,从日志收集服务器虽然这些scp就能完成,但是,scp怎么保证任务中断,负载均衡,状态查看。。。flume能帮你做到这些,好强大啊,这个框架转载于:https://www.cnblogs.com/arthurLance/p/10441019.html...
2019-02-26 23:43:00 317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人