bandi4506-CSDN博客

转载和弦入门

转载于:https://www.cnblogs.com/arthurLance/p/10887894.html

2019-05-19 00:43:00 182

转载 c大调练习

转载于:https://www.cnblogs.com/arthurLance/p/10872963.html

2019-05-15 23:46:00 212

转载吉他左右手练习

如图：转载于:https://www.cnblogs.com/arthurLance/p/10851855.html

2019-05-12 12:34:00 168

转载 spark sql 加载数据

Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3)将数据加载成RDDval masterLog = sc.textFile("file:///Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/logs/spark-arthurlance-org.apache...

2019-04-15 22:49:00 133

转载压缩格式介绍

1.类型2.压缩比转载于:https://www.cnblogs.com/arthurLance/p/10706322.html

2019-04-14 18:19:00 176

转载 Spark On Yarn 运行模式

在Spark中，支持4种运行模式：1）Local：开发时使用2）Standalone：是Spark自带的，如果一个集群是Standalone的话，那么就需要在多台机器上同时部署Spark环境3）YARN：建议大家在生产上使用该模式，统一使用YARN进行整个集群作业(MR、Spark)的资源调度4）Mesos不管使用什么模式，Spark应用程序的代码是一模一样的，只需要在提交的时候通...

2019-04-12 22:48:00 151

转载 hadoop离线数据处理架构

数据处理流程1）数据采集 Flume： web日志写入到HDFS2）数据清洗脏数据 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架清洗完之后的数据可以存放在HDFS(Hive/Spark SQL)3）数据处理按照我们的需要进行相应业务的统计和分析 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架4）处理结果入库结果...

2019-03-30 22:11:00 504

转载列式存储与行式存储的区别

转载于:https://www.cnblogs.com/arthurLance/p/10628551.html

2019-03-30 19:07:00 259

转载 Spark操作外部数据源--MySQL

操作MySQL的数据:spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparksql").option("dbtable", "sparksql.TBLS").option("user", "root").option("password", "root").option("driver", "c...

2019-03-30 18:09:00 166

转载 Spark操作外部数据源--parquet

处理parquet数据RuntimeException: file:/Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json is not a Parquet file val DEFAULT_DATA_SOURCE_NAME = SQLConfig...

2019-03-30 18:08:00 197

转载 DataFrame和RDD互操作的两种方式：

DataFrame和RDD互操作的两种方式：1）反射：case class 前提：事先需要知道你的字段、字段类型 2）编程：Row 如果第一种情况不能满足你的要求（事先不知道列）3) 选型：优先考虑第一种 1 package com.imooc.spark 2 3 import org.apache.spark.sql.types.{S...

2019-03-30 13:55:00 107

转载 DataFrame对比RDD

RDD里面Person看不到具体的内容哦，DataFrame可以看到name age height，这样，DataFrame就可以做更多的优化。RDD： java/scala ==> jvm python ==> python runtimeDataFrame: java/scala/python ==> Logic Plan转载于:htt...

2019-03-30 13:15:00 109

转载 HIVE环境搭建

1）Hive下载：http://archive.cloudera.com/cdh5/cdh/5/ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz2）解压 tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/3）配置系统环境变量(~/.bahs_p...

2019-03-21 00:11:00 133

转载 YARN环境搭建

mapred-site.xml<property><name>mapreduce.framework.name</name><value>yarn</value></property>yarn-site.xml<property><name>yarn.n...

2019-03-21 00:10:00 93

转载 HADOOP环境搭建

1) 下载Hadoop http://archive.cloudera.com/cdh5/cdh/5/ 2.6.0-cdh5.7.0 wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz2）安装jdk 下载解压到app目录：tar -zxvf jdk-7u51-linux-x64.tar...

2019-03-21 00:09:00 66

转载 HDFS架构概述

1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN)HDFS/YARN/HBase1个文件会被拆分成多个Blockblocksize：128M130M ==> 2个Block： 128M 和 2MNN：1）负责客户端请求的响应2）负责元数据（文件的名称、副本系数、Block存放的DN）的管理DN：1）存储用户的文件对应的数据块(...

2019-03-21 00:08:00 88

转载资源调度框架YARN

YARN架构1 RM(ResourceManager) + N NM(NodeManager)ResourceManager的职责：一个集群active状态的RM只有一个，负责整个集群的资源管理和调度1）处理客户端的请求(启动/杀死)2）启动/监控ApplicationMaster(一个作业对应一个AM)3）监控NM4）系统的资源分配和调度NodeManager：整个集群中有N...

2019-03-20 00:16:00 97

转载 flume kafka sparkStreaming 流程对接

流程示意图转载于:https://www.cnblogs.com/arthurLance/p/10545850.html

2019-03-17 10:42:00 133

转载 maven settings.xml 配置 --阿里源

1 <?xml version="1.0" encoding="UTF-8"?> 2 3 <!-- 4 Licensed to the Apache Software Foundation (ASF) under one 5 or more contributor license agreements. See the NOTICE ...

2019-03-16 10:59:00 385

转载 KafkaReceiverWordCount.scala 例子

package com.imooc.sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Spark...

2019-03-16 10:22:00 148

转载 SparkStream pom.xml配置

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o...

2019-03-16 10:15:00 126

转载 SparkStreaming 工作原理

Dstream 用来代表时间序列上的一连串RDD转载于:https://www.cnblogs.com/arthurLance/p/10486942.html

2019-03-06 23:38:00 95

转载整合flume和kafka--实时数据采集

简单来说，kafka是消息的中间件。由生产者与消费者组成。用于缓冲数据。类似一个篮子。转载于:https://www.cnblogs.com/arthurLance/p/10453931.html

2019-02-28 23:26:00 85

转载 flume的作用

传输文件到hadoop，从日志收集服务器虽然这些scp就能完成，但是，scp怎么保证任务中断，负载均衡，状态查看。。。flume能帮你做到这些，好强大啊，这个框架转载于:https://www.cnblogs.com/arthurLance/p/10441019.html...

2019-02-26 23:43:00 317

bandi4506的博客