自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

转载 和弦入门

转载于:https://www.cnblogs.com/arthurLance/p/10887894.html

2019-05-19 00:43:00 171

转载 c大调练习

转载于:https://www.cnblogs.com/arthurLance/p/10872963.html

2019-05-15 23:46:00 205

转载 吉他左右手练习

如图:转载于:https://www.cnblogs.com/arthurLance/p/10851855.html

2019-05-12 12:34:00 163

转载 spark sql 加载数据

Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3)将数据加载成RDDval masterLog = sc.textFile("file:///Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/logs/spark-arthurlance-org.apache...

2019-04-15 22:49:00 128

转载 压缩格式介绍

1.类型2.压缩比转载于:https://www.cnblogs.com/arthurLance/p/10706322.html

2019-04-14 18:19:00 167

转载 Spark On Yarn 运行模式

在Spark中,支持4种运行模式:1)Local:开发时使用2)Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境3)YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度4)Mesos不管使用什么模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通...

2019-04-12 22:48:00 146

转载 hadoop离线数据处理架构

数据处理流程1)数据采集 Flume: web日志写入到HDFS2)数据清洗 脏数据 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架 清洗完之后的数据可以存放在HDFS(Hive/Spark SQL)3)数据处理 按照我们的需要进行相应业务的统计和分析 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架4)处理结果入库 结果...

2019-03-30 22:11:00 493

转载 列式存储与行式存储的区别

转载于:https://www.cnblogs.com/arthurLance/p/10628551.html

2019-03-30 19:07:00 255

转载 Spark操作外部数据源--MySQL

操作MySQL的数据:spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparksql").option("dbtable", "sparksql.TBLS").option("user", "root").option("password", "root").option("driver", "c...

2019-03-30 18:09:00 161

转载 Spark操作外部数据源--parquet

处理parquet数据RuntimeException: file:/Users/arthurlance/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json is not a Parquet file val DEFAULT_DATA_SOURCE_NAME = SQLConfig...

2019-03-30 18:08:00 185

转载 DataFrame和RDD互操作的两种方式:

DataFrame和RDD互操作的两种方式:1)反射:case class 前提:事先需要知道你的字段、字段类型 2)编程:Row 如果第一种情况不能满足你的要求(事先不知道列)3) 选型:优先考虑第一种 1 package com.imooc.spark 2 3 import org.apache.spark.sql.types.{S...

2019-03-30 13:55:00 101

转载 DataFrame对比RDD

RDD里面Person看不到具体的内容哦,DataFrame可以看到name age height,这样,DataFrame就可以做更多的优化。RDD: java/scala ==> jvm python ==> python runtimeDataFrame: java/scala/python ==> Logic Plan转载于:htt...

2019-03-30 13:15:00 105

转载 HIVE环境搭建

1)Hive下载:http://archive.cloudera.com/cdh5/cdh/5/ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz2)解压 tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/3)配置 系统环境变量(~/.bahs_p...

2019-03-21 00:11:00 124

转载 YARN环境搭建

mapred-site.xml<property><name>mapreduce.framework.name</name><value>yarn</value></property>yarn-site.xml<property><name>yarn.n...

2019-03-21 00:10:00 86

转载 HADOOP环境搭建

1) 下载Hadoop http://archive.cloudera.com/cdh5/cdh/5/ 2.6.0-cdh5.7.0 wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz2)安装jdk 下载 解压到app目录:tar -zxvf jdk-7u51-linux-x64.tar...

2019-03-21 00:09:00 62

转载 HDFS架构概述

1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN)HDFS/YARN/HBase1个文件会被拆分成多个Blockblocksize:128M130M ==> 2个Block: 128M 和 2MNN:1)负责客户端请求的响应2)负责元数据(文件的名称、副本系数、Block存放的DN)的管理DN:1)存储用户的文件对应的数据块(...

2019-03-21 00:08:00 79

转载 资源调度框架YARN

YARN架构1 RM(ResourceManager) + N NM(NodeManager)ResourceManager的职责: 一个集群active状态的RM只有一个,负责整个集群的资源管理和调度1)处理客户端的请求(启动/杀死)2)启动/监控ApplicationMaster(一个作业对应一个AM)3)监控NM4)系统的资源分配和调度NodeManager:整个集群中有N...

2019-03-20 00:16:00 91

转载 flume kafka sparkStreaming 流程对接

流程示意图转载于:https://www.cnblogs.com/arthurLance/p/10545850.html

2019-03-17 10:42:00 126

转载 maven settings.xml 配置 --阿里源

1 <?xml version="1.0" encoding="UTF-8"?> 2 3 <!-- 4 Licensed to the Apache Software Foundation (ASF) under one 5 or more contributor license agreements. See the NOTICE ...

2019-03-16 10:59:00 377

转载 KafkaReceiverWordCount.scala 例子

package com.imooc.sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Spark...

2019-03-16 10:22:00 135

转载 SparkStream pom.xml配置

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o...

2019-03-16 10:15:00 121

转载 SparkStreaming 工作原理

Dstream 用来代表时间序列上的一连串RDD转载于:https://www.cnblogs.com/arthurLance/p/10486942.html

2019-03-06 23:38:00 90

转载 整合flume和kafka--实时数据采集

简单来说,kafka是消息的中间件。由生产者与消费者组成。用于缓冲数据。类似一个篮子。转载于:https://www.cnblogs.com/arthurLance/p/10453931.html

2019-02-28 23:26:00 81

转载 flume的作用

传输文件到hadoop,从日志收集服务器虽然这些scp就能完成,但是,scp怎么保证任务中断,负载均衡,状态查看。。。flume能帮你做到这些,好强大啊,这个框架转载于:https://www.cnblogs.com/arthurLance/p/10441019.html...

2019-02-26 23:43:00 309

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除