jiezou12138-CSDN博客

原创关于springboot2.x 引入spring-cloud-stater-openfeign依赖后依赖错误

今天做项目遇到一个奇怪的问题：在以下spring boot和cloud版本下想要引入netflix feign来实现不同模块服务之间的调用 <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot...

2019-08-07 17:22:45 10304

原创关于window上出现npm ERR! cb()never called!的错误

在运行npm install -g grunt-cli 时，由于时国外的服务器，用于很长时间没有下载下来，取消重新下载之后报如下错误：npm ERR! cb() never called!npm ERR! This is an error with npm itself. Please report this error at:npm ERR! <https://npm....

2019-08-02 15:09:46 7230 1

转载 Spark的Shuffle过程介绍

Shuffle WriterSpark丰富了任务类型，有些任务之间数据流转不需要通过Shuffle，但是有些任务之间还是需要通过Shuffle来传递数据，比如wide dependency的group by key。Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的bucket，Map产生的结果会根据设置的partitioner得到对应的bucketId，然后填充...

2019-06-06 16:41:39 248

转载史上最全SQL优化方案

作者1：惨绿少年https://www.cnblogs.com/clsn/p/8214048.html作者2:喜欢拿铁的人https://zhuanlan.zhihu.com/p/49888088在进行MySQL的优化之前，必须要了解的就是MySQL的查询过程，很多查询优化工作实际上就是遵循一些原则，让MySQL的优化器能够按照预想的合理方式运行而已。图-MySQL查询过程...

2019-06-05 11:35:46 2744

转载 MySQL索引背后的数据结构及算法原理

摘要本文以MySQL数据库为研究对象，讨论与数据库索引相关的一些话题。特别需要说明的是，MySQL支持诸多存储引擎，而各种存储引擎对索引的支持也各不相同，因此MySQL数据库支持多种索引类型，如BTree索引，哈希索引，全文索引等等。为了避免混乱，本文将只关注于BTree索引，因为这是平常使用MySQL时主要打交道的索引，至于哈希索引和全文索引本文暂不讨论。文章主要内容分为三个部分。第...

2019-06-05 11:12:44 135

原创 Hadoop生态圈（十一）：Storm

目录1 Storm概述1.1 离线计算是什么？1.2 流式计算是什么？1.3 Storm是什么？1.4 Storm与Hadoop的区别1.5 Storm应用场景及行业案例1.5.1 运用场景1.5.2 典型案列2 Storm基础知识2.1 Storm编程模型2.2 Storm核心组件2.3 实时流计算常见框架图3 Storm集群搭建3.1 环...

2019-04-25 19:51:11 1099

原创 Hadoop生态圈（十）：Hbase

目录1 Hbase概述1.1 什么是Hbase1.2 Hbase特点1.3HBase架构1.4HBase中的角色1.4.1 HMaster1.4.2 RegionServer1.4.3 其他组件2 Hbase安装2.1 环境准备2.2 下载安装2.3 Hbase服务的启动2.4 查看Hbase的WEBUI界面3 Hbase Shell操作...

2019-04-25 16:04:19 862

原创 Hadoop生态圈（九）：kafka

目录1Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构2 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 下载2.2 Kafka集群部署2.3 Kafka命令行操作3 Kafka工作流程分析3.1 Kafka生产过程分析3.1.1 写入方式3.1.2 分区（Par...

2019-04-21 15:22:02 710

原创 Hadoop生态圈（八）：Flume

目录1 Flume概述1.1 Flume是什么1.2 Flume组成架构2 Flume安装2.1 下载2.2 安装部署3 案例 3.1 Flume实时读取目录文件到HDFS3.2 Flume实时读取本地文件新增内容到HDFS(常用)3.3单数据源多出口案例3.4 多数据源汇总1 Flume概述1.1 Flume是什么Flum...

2019-04-20 21:40:08 419

原创 Hadoop生态圈（七）：Sqoop

目录1 Sqoop简介2 工作原理3 Sqoop安装3.1 下载解压3.2 修改配置文件3.3 拷贝JDBC驱动3.4 验证Sqoop3.5 验证sqoop是否能够连接上数据库4 Sqoop案例4.1 导入数据4.1.1 RDBMS到HDFS4.1.3 RDBMS到Hive4.2 导出数据4.2.1 Hive/HDFS到RDBMS(本质上都是...

2019-04-20 18:03:31 382

原创 Hadoop生态圈（六）：Hive（二）

目录5 DML操作5.1 数据导入5.1.1 向表中加载数据（load）5.1.2 通过查询语句向表中插入数据（Insert）5.1.3 查询语句中创建表并加载数据（As Select）5.1.4 创建表时通过location指定加载数据路径5.1.5 Import数据到指定Hive表中5.2 数据导出5.2.1 Insert导出5.2.2 Hadoop与...

2019-04-19 22:19:34 413

原创 Hadoop生态圈（六）：Hive（一）

目录1 Hive基本概念1.1 什么是hive1.2 hive的特点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较2 Hive安装2.1 hive下载地址2.2 hive安装部署2.3 将本地文件导入Hive案例2.4 Mysql安装（root用户）2.4.1 安装包准备2.4.2 安装mysql服务器...

2019-04-18 23:32:51 994

原创 Hadoop生态圈（五）：Zookeeper

目录1 Zookeeper1.1 概述1.2 特点1.3 数据结构1.4 应用场景，1.5 下载地址2 zookeeper安装部署2.1 分布式安装部署2.2 配置参数解读3 Zookeeper内部原理3.1 选举机制3.2 节点类型3.3 监听原理3.5 写数据流程4 zookeeper实战4.1 客户端命令行操作4.2sta...

2019-04-16 17:29:58 405

原创 Hadoop生态圈（四）：Yarn

目录1 Yarn1.1 Yarn概述1.2 Yarn基本结构1.3 Yarn工作机制1.4 资源调度器2 hadoop企业优化2.1MapReduce跑的慢的原因2.2 MapReduce优化方法2.2.1 数据输入2.2.2 Map阶段2.2.3 Reduce阶段2.2.4 数据倾斜问题3 常见错误及解决方案1 Yarn1.1 Ya...

2019-04-11 23:31:05 514

原创 Hadoop生态圈（三）：MapReduce

目录1 MapReduce入门1.1 MapReduce定义1.2 MapReduce的优缺点1.3 MapReduce核心思想1.4 MapReduce进程（MR）1.5 MapReduce编程规范1.6 WordCount案例2 Hadoop序列化2.1 序列化概述2.1.1 什么是序列化2.1.2 为什么要序列化2.13 为什么不使用ja...

2019-04-10 23:44:17 505

原创 Hadoop生态圈（二）：HDFS

目录1 HDFS的概述1.1 HDFS的概念1.2 HDFS优缺点1.2.1优点1.2.2缺点1.3 HDFS的架构1.4 block文件块的大小2 HDFS的shell客户端操作3 HDFS的java客户端操作3.1 HDFS客户端操作4 HDFS的数据流4.1 HDFS写数据流程4.2 HDFS读数据流程5 NameNode和Seco...

2019-04-09 16:17:28 498

原创 hadoop生态圈（一）：hadoop集群的搭建

目录1 hadoop概述1.1 hadoop是什么1.2 hadoop的组成1.2.1 hdfs架构概述1.2.2 YARN概述1.2.3 MapReduce架构概述1.3大数据生态体系1.4 推荐系统架构图2 Hadoop集群搭建2.1 虚拟机环境准备2.2 安装jdk和hadoop2.3 集群配置3 集群启动3.1 集群单点启动3...

2019-04-08 20:52:38 1846

原创 redis伪集群搭建

Redis集群规范：https://redis.io/topics/cluster-spec1. 原理简述：此处的集群指的是Cluster, 通过分区/分片来实现一定程度的分布式与高可用部署。2. 集群配置：2.1准备工作：Redis 最小集群规划，需要包含至少三个主节点，此处测试部署具有三个主服务器和三个从服务器的六节点群集。计划是在一台机器上模拟一个集群，主节...

2019-04-08 11:45:23 177

原创在linux上安装redis，在window上使用redisManager远程连接

1. 安装准备：安装包：redis-4.0.14.tar.gz下载地址：https://redis.io/downloadreids命令参考：http://doc.redisfans.com2. 安装：上传，解压，提取和编译redis[root@hadoop104 software]# tar -zxvf redis-4.0.14.tar.gz -C /opt/modul...

2019-04-07 19:56:36 634

原创 Spark学习（七）：SparkStreaming

目录1 什么是SparkStreaming1.1 SparkStreaming简介、1.2 SparkStreaming与Storm的区别2 SparkStreaming初始2.1 官方自带的WordCount程序2.2 IDEA编程2.3StreamingContext的cores配置2.4 DStream中的transformation和action算子...

2019-04-06 15:52:20 456

原创 Spark学习（六）：Spark SQL二

目录4.数据的read、write和savemode4.1 数据的读取4.2 数据的写出4.3 数据保存的模式5. Spark SQL数据源5.1数据源之json5.2 数据源之parquet5.3 数据源之csv5.4 数据源之JDBC5.5 数据源之hive4.数据的read、write和savemode4.1 数据的读取一些常见的数据源...

2019-04-04 23:40:19 303

原创 Spark学习（六）：Spark SQL一

目录1 Spark SQL1.1 Spark SQL是什么1.2 Spark的优点1.3 RDD vs DataFrame vs Dataset1.3.1 RDD1.3.2 DataFrame1.3.3 Dataset1.3.4 三者的共性1.3.5 三者的区别2 Spark SQL编程2.1 spark-shell编程2.2 IDEA创建Spark...

2019-04-04 22:05:59 450

原创 spark学习（五）：shuffle以及内存管理机制

目录1. shuffle详解1.1 那么到底什么时shufffle？reduceByKey的含义？问题：如何聚合？1.2 Shuffle分为shuffle和sortShuffle1.2.1 shuffle普通机制1.2.2 shuffle合并机制1.2.3 SortShuffle普通运行机制1.3 shuffle文件寻址1.4shuffle调优2....

2019-04-02 23:12:23 810

原创 spark学习（四）：共享变量及一些优化

目录1.Spark中的共享变量1.1 广播变量1.2 累计器2. Spark WEBUI3. 搭建HistoryServer4.Master HA1.Spark中的共享变量在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且...

2019-04-02 18:15:31 279

原创 Spark学习（三）：spark 的任务提交方式

目录1. Standalone模式两种提交任务方式1.1 Standalone-client提交任务方式1.2 Standalone-cluster提交任务方式1.3 Driver的功能2. yarn模式两种提交任务方式2.1 yarn-client提交任务方式2.2 Standalone-cluster提交任务方式2.3 Application功能3. 术语解...

2019-04-01 16:28:43 557

原创 Spark学习（二）：RDD详解

目录1.RDD详解1.1RDD的创建1.2 transformation算子和action算子1.3 RDD的宽依赖和窄依赖2. Stage2.1DAG的生成2.2stage1.RDD详解RDD的概念，注意事项已经在Spark的总体概述中说过，就不再提了，可以自行查看https://blog.csdn.net/jiezou12138/article/deta...

2019-04-01 11:20:26 373

原创 spark学习（一）：集群的搭建

目录1.下载2.上传3.解压4.修改配置文件5.启动spark集群6.Spark的四种部署模式7.如何去提交spark任务8.Spark的第一个程序9.Spark编程（WordCount）Spark集群的配置：准备三台有hdfs集群的节点hadoop101 master和workerhadoop102 workerhadoop103 work...

2019-03-31 17:52:30 346

原创 Spark学习总体概述

1.什么是Spark？与MR的区别？ Spark是开源的通用的计算框架，目的是为了使数据分析更快。MR也是计算框架。区别？ 1).MR是基于磁盘迭代，Spark是基于内存迭代。 2).Spark中有DAG有向无环图。 3).MR中只有map,reduce两个类，相当于Spark中两个算...

2019-03-31 14:24:36 293

转载 Spark生态圈概述以及Hadoop生态圈的比较

目录1.Spark概述及特点2.Spark产生背景3.Spark与Hadoop的对比4.Spark与Hadoop的协作性1.Spark概述及特点先看下官网的描述：http://spark.apache.org/Spark定义：spark是基于内存的，分布式的大数据计算引擎。有以下特点：SpeedRun workloads 100x faster....

2019-03-29 20:16:20 1059

原创调整spark-sql控制台日志输出级别

问题：每次spark-sql操作都会打印大量的INFO信息，这样我们查看结果就会很麻烦，解决：调整Spark日志级别的配置文件是在$SPARK_HOME/conf/目录下的log4j.properties.template，默认级别是INFO将log4j.properties.template复制一份cp log4j.properties.template log4j.pro...

2019-03-28 20:06:32 5143

原创 Scala学习第三天

面向对象单例对象在Scala 中，是没有static 这个东西的，但是可以使用关键字object，使用object修饰的类是单例的，而且类中的方法/属性都是static的。在scala中被object关键字修饰的类有如下特征：是单例的（内存中只有一个对象）类中的所有属性和方法都是静态的不需要通过new来创建对象，直接通过类名使用通常用于封装一些常量、工具类等调用方式...

2019-03-25 23:57:34 144

原创 Scala学习第二天

数组的定义（内容均可变）1.定长数组（默认情况） // 定义定长数组, 长度不可变, 内容可变 var x :Array[String] = new Array[String](3) // 或者 var y = new Array[String](3) // 使用new的时候，小括弧中的3代表的是数组的长度，如果不加new，3就是数组中的元素 va...

2019-03-24 22:11:19 124

原创 Scala学习第一天

数据类型：非引用数据类型：父类型均为AnyVal 七种数值类型Byte、Char、Short、Int、Long、Float 和 Double 非数值类型：Boolean、Unit 类型.引用数据类型：父类型均为AnyRef变量Var|Val 变量名[: 数据类型] = 变量值 Var 定义变量 var name: String = “Scala” ...

2019-03-23 18:16:19 234

原创 scala中:: , +:, :+, :::, ++,++:的区别

scala中:: , +:, :+, :::, ++,++:的区别（对两个集合/数组的操作）++ ++::::三个方法均为拼接作用::: 方法只能用于集合对于两个序列（List）三个方法的效果是相同的对于两个数组，:::不能用于数组的拼接（对列表追加元素）在序列头部插入元素 ...

2019-03-20 23:26:32 606

原创 Hbase的架构及读写流程

Hbase：是一个构建在Hdfs基础之上的非关系型数据库。** 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，目标是存储并计算大型的数据，具体来说就是在非常普通的硬件配置，就能够处理成千上万的行和列组成的大型数据。关系型数据库和非关系型数库的明显区别：Nosql往往使用api操作，关系型数据习惯与使用sql语句操作特点： 1.海量存储 -...

2019-03-19 23:31:45 583

jiezou12138的博客