自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 关于springboot2.x 引入spring-cloud-stater-openfeign依赖后依赖错误

今天做项目遇到一个奇怪的问题: 在以下spring boot和cloud版本下想要引入netflix feign来实现不同模块服务之间的调用 <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot...

2019-08-07 17:22:45 10304

原创 关于window上出现npm ERR! cb()never called!的错误

在运行npm install -g grunt-cli 时,由于时国外的服务器,用于很长时间没有下载下来,取消重新下载之后报如下错误:npm ERR! cb() never called!npm ERR! This is an error with npm itself. Please report this error at:npm ERR! <https://npm....

2019-08-02 15:09:46 7230 1

转载 Spark的Shuffle过程介绍

Shuffle WriterSpark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的bucket,Map产生的结果会根据设置的partitioner得到对应的bucketId,然后填充...

2019-06-06 16:41:39 248

转载 史上最全SQL优化方案

作者1:惨绿少年https://www.cnblogs.com/clsn/p/8214048.html作者2:喜欢拿铁的人https://zhuanlan.zhihu.com/p/49888088在进行MySQL的优化之前,必须要了解的就是MySQL的查询过程,很多查询优化工作实际上就是遵循一些原则,让MySQL的优化器能够按照预想的合理方式运行而已。图-MySQL查询过程...

2019-06-05 11:35:46 2744

转载 MySQL索引背后的数据结构及算法原理

摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等。为了避免混乱,本文将只关注于BTree索引,因为这是平常使用MySQL时主要打交道的索引,至于哈希索引和全文索引本文暂不讨论。文章主要内容分为三个部分。第...

2019-06-05 11:12:44 135

原创 Hadoop生态圈(十一):Storm

目录1 Storm概述1.1 离线计算是什么?1.2 流式计算是什么?1.3 Storm是什么?1.4 Storm与Hadoop的区别1.5 Storm应用场景及行业案例1.5.1 运用场景1.5.2 典型案列2 Storm基础知识2.1 Storm编程模型2.2 Storm核心组件2.3 实时流计算常见框架图3 Storm集群搭建3.1 环...

2019-04-25 19:51:11 1099

原创 Hadoop生态圈(十):Hbase

目录1 Hbase概述1.1 什么是Hbase1.2 Hbase特点1.3HBase架构1.4HBase中的角色1.4.1 HMaster1.4.2 RegionServer1.4.3 其他组件2 Hbase安装2.1 环境准备2.2 下载安装2.3 Hbase服务的启动2.4 查看Hbase的WEBUI界面3 Hbase Shell操作...

2019-04-25 16:04:19 862

原创 Hadoop生态圈(九):kafka

目录1Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构2 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 下载2.2 Kafka集群部署2.3 Kafka命令行操作3 Kafka工作流程分析3.1 Kafka生产过程分析3.1.1 写入方式3.1.2 分区(Par...

2019-04-21 15:22:02 710

原创 Hadoop生态圈(八):Flume

目录1 Flume概述1.1 Flume是什么1.2 Flume组成架构2 Flume安装2.1 下载2.2 安装部署3 案例 3.1 Flume实时读取目录文件到HDFS3.2 Flume实时读取本地文件新增内容到HDFS(常用)3.3单数据源多出口案例3.4 多数据源汇总1 Flume概述1.1 Flume是什么Flum...

2019-04-20 21:40:08 419

原创 Hadoop生态圈(七):Sqoop

目录1 Sqoop简介2 工作原理3 Sqoop安装3.1 下载解压3.2 修改配置文件3.3 拷贝JDBC驱动3.4 验证Sqoop3.5 验证sqoop是否能够连接上数据库4 Sqoop案例4.1 导入数据4.1.1 RDBMS到HDFS4.1.3 RDBMS到Hive4.2 导出数据4.2.1 Hive/HDFS到RDBMS(本质上都是...

2019-04-20 18:03:31 382

原创 Hadoop生态圈(六):Hive(二)

目录5 DML操作5.1 数据导入5.1.1 向表中加载数据(load)5.1.2 通过查询语句向表中插入数据(Insert)5.1.3 查询语句中创建表并加载数据(As Select)5.1.4 创建表时通过location指定加载数据路径5.1.5 Import数据到指定Hive表中5.2 数据导出5.2.1 Insert导出5.2.2 Hadoop与...

2019-04-19 22:19:34 413

原创 Hadoop生态圈(六):Hive(一)

目录1 Hive基本概念1.1 什么是hive1.2 hive的特点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较2 Hive安装2.1 hive下载地址2.2 hive安装部署2.3 将本地文件导入Hive案例2.4 Mysql安装(root用户)2.4.1 安装包准备2.4.2 安装mysql服务器...

2019-04-18 23:32:51 994

原创 Hadoop生态圈(五):Zookeeper

目录1 Zookeeper1.1 概述1.2 特点1.3 数据结构1.4 应用场景,1.5 下载地址2 zookeeper安装部署2.1 分布式安装部署2.2 配置参数解读3 Zookeeper内部原理3.1 选举机制3.2 节点类型3.3 监听原理3.5 写数据流程4 zookeeper实战4.1 客户端命令行操作4.2sta...

2019-04-16 17:29:58 405

原创 Hadoop生态圈(四):Yarn

目录1 Yarn1.1 Yarn概述1.2 Yarn基本结构1.3 Yarn工作机制1.4 资源调度器2 hadoop企业优化2.1MapReduce跑的慢的原因2.2 MapReduce优化方法2.2.1 数据输入2.2.2 Map阶段2.2.3 Reduce阶段2.2.4 数据倾斜问题3 常见错误及解决方案1 Yarn1.1 Ya...

2019-04-11 23:31:05 514

原创 Hadoop生态圈(三):MapReduce

目录1 MapReduce入门1.1 MapReduce定义1.2 MapReduce的优缺点1.3 MapReduce核心思想1.4 MapReduce进程(MR)1.5 MapReduce编程规范1.6 WordCount案例2 Hadoop序列化2.1 序列化概述2.1.1 什么是序列化2.1.2 为什么要序列化2.13 为什么不使用ja...

2019-04-10 23:44:17 505

原创 Hadoop生态圈(二):HDFS

目录1 HDFS的概述1.1 HDFS的概念1.2 HDFS优缺点1.2.1优点1.2.2缺点1.3 HDFS的架构1.4 block文件块的大小2 HDFS的shell客户端操作3 HDFS的java客户端操作3.1 HDFS客户端操作4 HDFS的数据流4.1 HDFS写数据流程4.2 HDFS读数据流程5 NameNode和Seco...

2019-04-09 16:17:28 498

原创 hadoop生态圈(一):hadoop集群的搭建

目录1 hadoop概述1.1 hadoop是什么1.2 hadoop的组成1.2.1 hdfs架构概述1.2.2 YARN概述1.2.3 MapReduce架构概述1.3大数据生态体系1.4 推荐系统架构图2 Hadoop集群搭建2.1 虚拟机环境准备2.2 安装jdk和hadoop2.3 集群配置3 集群启动3.1 集群单点启动3...

2019-04-08 20:52:38 1846

原创 redis伪集群搭建

Redis集群规范:https://redis.io/topics/cluster-spec1. 原理简述:此处的集群指的是Cluster, 通过分区/分片来实现一定程度的分布式与高可用部署。2. 集群配置:2.1准备工作:Redis 最小集群规划,需要包含至少三个主节点,此处测试部署具有三个主服务器和三个从服务器的六节点群集。计划是在一台机器上模拟一个集群,主节...

2019-04-08 11:45:23 177

原创 在linux上安装redis,在window上使用redisManager远程连接

1. 安装准备:安装包:redis-4.0.14.tar.gz下载地址:https://redis.io/downloadreids命令参考:http://doc.redisfans.com2. 安装:上传,解压,提取和编译redis[root@hadoop104 software]# tar -zxvf redis-4.0.14.tar.gz -C /opt/modul...

2019-04-07 19:56:36 634

原创 Spark学习(七):SparkStreaming

目录1 什么是SparkStreaming1.1 SparkStreaming简介、1.2 SparkStreaming与Storm的区别2 SparkStreaming初始2.1 官方自带的WordCount程序2.2 IDEA编程2.3StreamingContext的cores配置2.4 DStream中的transformation和action算子...

2019-04-06 15:52:20 456

原创 Spark学习(六):Spark SQL二

目录4.数据的read、write和savemode4.1 数据的读取4.2 数据的写出4.3 数据保存的模式5. Spark SQL数据源5.1数据源之json5.2 数据源之parquet5.3 数据源之csv5.4 数据源之JDBC5.5 数据源之hive4.数据的read、write和savemode4.1 数据的读取一些常见的数据源...

2019-04-04 23:40:19 303

原创 Spark学习(六):Spark SQL一

目录1 Spark SQL1.1 Spark SQL是什么1.2 Spark的优点1.3 RDD vs DataFrame vs Dataset1.3.1 RDD1.3.2 DataFrame1.3.3 Dataset1.3.4 三者的共性1.3.5 三者的区别2 Spark SQL编程2.1 spark-shell编程2.2 IDEA创建Spark...

2019-04-04 22:05:59 450

原创 spark学习(五):shuffle以及内存管理机制

目录1. shuffle详解1.1 那么到底什么时shufffle?reduceByKey的含义?问题:如何聚合?1.2 Shuffle分为shuffle和sortShuffle1.2.1 shuffle普通机制1.2.2 shuffle合并机制1.2.3 SortShuffle普通运行机制1.3 shuffle文件寻址1.4shuffle调优2....

2019-04-02 23:12:23 810

原创 spark学习(四):共享变量及一些优化

目录1.Spark中的共享变量1.1 广播变量1.2 累计器2. Spark WEBUI3. 搭建HistoryServer4.Master HA1.Spark中的共享变量在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且...

2019-04-02 18:15:31 279

原创 Spark学习(三):spark 的任务提交方式

目录1. Standalone模式两种提交任务方式1.1 Standalone-client提交任务方式1.2 Standalone-cluster提交任务方式1.3 Driver的功能2. yarn模式两种提交任务方式2.1 yarn-client提交任务方式2.2 Standalone-cluster提交任务方式2.3 Application功能3. 术语解...

2019-04-01 16:28:43 557

原创 Spark学习(二):RDD详解

目录1.RDD详解1.1RDD的创建1.2 transformation算子和action算子1.3 RDD的宽依赖和窄依赖2. Stage2.1DAG的生成2.2stage1.RDD详解RDD的概念,注意事项已经在Spark的总体概述中说过,就不再提了,可以自行查看https://blog.csdn.net/jiezou12138/article/deta...

2019-04-01 11:20:26 373

原创 spark学习(一):集群的搭建

目录1.下载2.上传3.解压4.修改配置文件5.启动spark集群6.Spark的四种部署模式7.如何去提交spark任务8.Spark的第一个程序9.Spark编程(WordCount)Spark集群的配置:准备三台有hdfs集群的节点hadoop101 master和workerhadoop102 workerhadoop103 work...

2019-03-31 17:52:30 346

原创 Spark学习总体概述

1.什么是Spark?与MR的区别? Spark是开源的通用的计算框架,目的是为了使数据分析更快。MR也是计算框架。 区别? 1).MR是基于磁盘迭代,Spark是基于内存迭代。 2).Spark中有DAG有向无环图。 3).MR中只有map,reduce两个类,相当于Spark中两个算...

2019-03-31 14:24:36 293

转载 Spark生态圈概述以及Hadoop生态圈的比较

目录1.Spark概述及特点2.Spark产生背景3.Spark与Hadoop的对比4.Spark与Hadoop的协作性1.Spark概述及特点先看下官网的描述:http://spark.apache.org/Spark定义:spark是基于内存的,分布式的大数据计算引擎。有以下特点:SpeedRun workloads 100x faster....

2019-03-29 20:16:20 1059

原创 调整spark-sql控制台日志输出级别

问题:每次spark-sql操作都会打印大量的INFO信息,这样我们查看结果就会很麻烦,解决:调整Spark日志级别的配置文件是在$SPARK_HOME/conf/目录下的log4j.properties.template,默认级别是INFO将log4j.properties.template复制一份cp log4j.properties.template log4j.pro...

2019-03-28 20:06:32 5143

原创 Scala学习第三天

面向对象单例对象在Scala 中,是没有static 这个东西的,但是可以使用关键字object,使用object修饰的类是单例的,而且类中的方法/属性都是static的。在scala中被object关键字修饰的类有如下特征:是单例的(内存中只有一个对象) 类中的所有属性和方法都是静态的 不需要通过new来创建对象,直接通过类名使用 通常用于封装一些常量、工具类等 调用方式...

2019-03-25 23:57:34 144

原创 Scala学习第二天

数组的定义(内容均可变)1.定长数组(默认情况) // 定义定长数组, 长度不可变, 内容可变 var x :Array[String] = new Array[String](3) // 或者 var y = new Array[String](3) // 使用new的时候,小括弧中的3代表的是数组的长度,如果不加new,3就是数组中的元素 va...

2019-03-24 22:11:19 124

原创 Scala学习第一天

数据类型:非引用数据类型:父类型均为AnyVal 七种数值类型Byte、Char、Short、Int、Long、Float 和 Double 非数值类型:Boolean、Unit 类型.引用数据类型:父类型均为AnyRef变量Var|Val 变量名[: 数据类型] = 变量值 Var 定义变量 var name: String = “Scala” ...

2019-03-23 18:16:19 234

原创 scala中:: , +:, :+, :::, ++,++:的区别

scala中:: , +:, :+, :::, ++,++:的区别(对两个集合/数组的操作)++ ++::::三个方法均为拼接作用::: 方法只能用于集合 对于两个序列(List)三个方法的效果是相同的 对于两个数组,:::不能用于数组的拼接 (对列表追加元素)在序列头部插入元素 ...

2019-03-20 23:26:32 606

原创 Hbase的架构及读写流程

Hbase: 是一个构建在Hdfs基础之上的非关系型数据库。** 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,目标是存储并计算大型的数据,具体来说就是在非常普通的硬件配置,就能够处理成千上万的行和列组成的大型数据。 关系型数据库和非关系型数库的明显区别:Nosql往往使用api操作,关系型数据习惯与使用sql语句操作特点: 1.海量存储 -...

2019-03-19 23:31:45 583

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除