自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 本地文件上传到 HDFS 的shell执行脚本

目录 1.功能:将本地日志上传到hdfs中。 2.实现:分两步进行,第一步将文件复制到待上传目录,第二步将文件设置标志(copy)循环逐条复制hdfs中,并更改标志(done) 3.代码及结果展示 1.功能: 将本地日志上传到hdfs中。 2.实现: 分两步进行, 第一步将文件复制到...

2019-03-19 10:16:48 2435 1

原创 Redis 中哨兵sentinel 机制、从宕机及恢复、主库宕机及恢复解决方案

目录 什么是哨兵 原理 环境 设置哨兵 从宕机及恢复 主宕机及恢复 配置多个哨兵 1、什么是哨兵 哨兵是对Redis的系统的运行情况的监控,它是一个独立进程,功能有二个: 监控主数据库和从数据库是否运行正常; 主数据出现故障后自动将从数据库转化为主数据库; 2、原理 单个哨兵...

2018-09-09 08:49:10 6993 0

原创 短信微服务开发 SpringBoot + ActiveMQ + 阿里大于短信API

1、项目简介        短信微服务开发,其应用场景一般是注册时短信验证码的接收、提示用户注册成功等场景。在短信微服务开发中,本文主要使用技术为:SpringBoot ,快速搭建web应用,即:消息的生产者,消息的消费者; ActiveMQ,消息的中间件,消息的异步接收及异步发送;调用第三方短...

2018-08-11 18:33:54 3518 0

原创 Java8 之 NumbericStream

1、IntegerStream 转为 IntStream stream = Arrays.stream(new Integer[]{1, 2, 3, 4, 5, 6, 7}); int resultNumber = stream.mapToInt(i -> i.intValue()).f...

2019-11-26 22:27:16 40 0

原创 JAVA-8 learn 03-04

0、lambda 定义 (parameters)-> expression (parameters) -> { statements; } 1、 predicate boolean test(T t) 2、Consumer accept(T t) 3、Functioin&l...

2019-11-16 07:01:13 35 0

原创 JAVA-8 learn 01-02

package com.tianmeng.java8; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import static java.lang.Thread.currentThrea...

2019-11-14 23:43:48 32 0

原创 Java 项目中常用名词解释

目录 一、Java 项目中常用名词解释 一、Java 项目中常用名词解释 POJO(PlainOrdinaryJavaObject): 在本手册中,POJO专指只有 setter/getter/ toString的简单类,包括 DO/DTO/BO/VO等,一个POJO持久化以后就是PO;直接用...

2019-09-02 10:40:37 108 0

原创 elasticsearch之document写入流程实现可靠存储

目录 1、refresh 过程 2、flush 过程 3、document 写入流程 4、总结 1、refresh 过程 数据写入os cache,并被打开供搜索的过程,叫做refresh,默认是每隔1秒refresh一次。 2、flush 过程 将os cache上的数据fsync...

2019-08-20 20:09:46 107 0

原创 elasticsearch 之 深入探秘type底层数据结构

目录 1、理论知识 2、案例实战 3、最后总结 1、理论知识 type,是一个index中用来区分类似的数据的,类似的数据,但是可能有不同的fields,而且有不同的属性来控制索引建立、分词器。 field的value,在底层的lucene中建立索引的时候,全部是opaque(不透明) ...

2019-08-19 21:47:10 134 0

原创 elasticsearch 之阶段总结

目录 1、distribute document store 2、使用场景 1、distribute document store 到目前为止,一个直观的感觉,知道了es是分布式的,包括一些基本的原理,然后花了不少时间在学习document本身相关的操作,增删改查。一句话点出来,归纳总...

2019-08-17 21:46:36 59 0

原创 elasticsearch 之 聚合分析 aggregate analysis

目录 0、构造数据 1、第一个聚合分析的需求:计算每个tag下的商品数量 2、第二个聚合分析的需求:对名称中包含yagao的商品,计算每个tag下的商品数量 3、第三个聚合分析的需求:先分组,再算每组的平均值,计算每个tag下的商品的平均价格 4、第四个聚合分析的需求:计算每个tag下的...

2019-08-17 08:47:37 207 0

原创 elasticsearch 之 实战学习

目录 1、es 中的数据格式 2、集群管理 3、CRUD 操作 4、多种搜索 1、es 中的数据格式 与传统的数据库的关系型数据格式不同,es的数据格式是面向文档 document ,而不是面向对象的。 应用系统的数据结构都是面向对象的,它是比较复杂的,对象数据存储到数据库中,只能拆解...

2019-08-16 11:46:23 186 0

原创 elasticsearch 之 索引管理:基于scoll、bulk、索引别名技术实现零停机重建索引

目录 1、思路 2、实验 3、总结 1、思路 一个field的设置是不能被修改的,如果要修改一个Field,那么应该重新按照新的mapping,建立一个index_new,然后将数据批量查询出来,重新用bulk api写入index_new中批量查询的时候,建议采用scroll api,并...

2019-08-14 19:45:29 42 0

原创 elasticsearch 之 环境搭建 & 核心概念

目录 0、环境搭建 1、elasticsearch的前世今生 2、elasticsearch的核心概念 3、elasticsearch核心概念 vs 数据库核心概念 0、环境搭建 (1)安装JDK,至少1.8.0_73以上版本,使用 java -version 查看 (2)下载和解压缩...

2019-08-11 08:07:22 31 0

原创 spark2 之 交互式用户行为分析

目录 1、离线式行为分析 2、交互式行为分析 3、DataSet 案例实战 1、离线式行为分析 每天凌晨对昨天的数据进行批量处理和分析,统计出各种指标和报表,放入MySQL等关系型数据库中。第二天就可以看到昨天以及昨天以前的数据分析结果。 2、交互式行为分析 用户在需要的时候,选择对应...

2019-08-08 23:18:34 63 0

原创 Spark2 的 Whole-stage Code Generation、Vectorization 技术 与Spark1 的 Volcano Iterator Model 技术 的对比分析

目录 1、Spark1 的 Volcano Iterator Model 技术 2、Spark2 的 Whole-stage Code Generation、vectorization 技术 3、总结 1、Spark1 的 Volcano Iterator Model 技术 Spark...

2019-08-01 21:03:03 195 0

原创 Spark2 之 新特性易用性、高性能、智能化

目录 1、新特性之易用性 2、新特性之高性能 3、新特性之智能化 1、新特性之易用性 (1)在标准化SQL支持方面,引入了新的ANSI-SQL解析器,提供标准化SQL的解析功能,而且还提供了子查询的支持。Spark现在可以运行完整的99个TPC-DS查询,这就要求Spark包含大多数SQL...

2019-08-01 20:27:20 66 0

原创 Spark 之 作业调度(在yarn-client模式下动态资源调度)

目录 1、静态资源调度 2、动态资源调度 3、配置 hadoop 中 yarn 相关文件 4、启动 spark 作业查看是否动态资源调度 1、静态资源调度 当一个spark application运行在集群中时,会获取一批独立的executor进程专门为自己服务,比如运行task和...

2019-07-28 18:21:36 168 0

原创 spark 之 运维管理使用CURL RESTful 方式查看spark 中 applications、jobs、stages

目录 1、软件安装 2、查看过程 1、软件安装 安装curl工具,来发送http请求: 故使用 以下命令安装: yum install -y curl 2、查看过程 使用curl RESTful 方式查看 spark applications 、jobs、stages 命令行输入:...

2019-07-23 20:42:19 442 0

原创 Spark 之 日志框架 Flume 和 Kafka 使用场景

目录 1、Spark 结合 Flume 的使用场景 2、Spark 结合 Kafka 的使用场景 1、Spark 结合 Flume 的使用场景 若实时数据流产出的频率不固定,比如有时候是一秒十万条,有时候是一小时一万条,可以选择将数据用nginx日志来表示,每隔一段时间将日志文件,放到...

2019-07-17 18:14:08 52 0

原创 spark 之报错 System memory 202768384 must be at least 4.718592E8. Please use a larger heap size

目录 1、问题:System memory 202768384 must be at least 4.718592E8. Please use a larger heap size 2、解决 1、问题: System memory 202768384 must be at least 4...

2019-07-16 23:01:26 97 0

原创 spark 之 运行报错:Failed to allocate a page (67108864 bytes), try again.

目录: 1、问题:Failed to allocate a page (67108864 bytes), 2、解决 1、问题 WARN memory.TaskMemoryManager: Failed to allocate a page (67108864 bytes), try agai...

2019-07-15 21:54:00 527 0

原创 hadoop 之 yarn 使用命令行查看日志、结束作业

目录 1、yarn 命令行查看日志 2、yarn 命令行结束作业 1、yarn 命令行查看日志 yarn logs -applicationId 【作业id】 例如yarn logs -applicationId application_1562937465914_0001 【注意】在y...

2019-07-12 22:17:09 814 0

原创 Hadoop 之 动态添加一个新节点(dataNode)到集群中(nameNode)

目录 1、新节点操作 2、主节点操作 3、web UI 查看 4、修改副本数 1、新节点操作 手动启动 datanode 命令:hadoop-daemon.sh start datanode 手动启动 nodemanager 命令:yarn-daemon.sh start node...

2019-07-11 22:40:55 160 0

原创 Spark 之 shuffle 相关的算子

目录 1、repartition 类 2、byKey类 3、join类 4、使用建议 1、repartition 类 repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等。 重分区: 一般会...

2019-07-11 11:09:33 73 0

原创 Spark 之 算子的闭包原理

目录 1、何为闭包 2、原理分析 3、spark 相关算子 1、何为闭包 闭包跟在RDD的算子中操作作用域外部的变量有关,所谓RDD算子中,操作作用域外部的变量,指的是,类似下面的语句: val a = 0; rdd.foreach(i -> a += i)。此时,对rdd执行...

2019-07-10 09:57:12 85 0

原创 Spark 之 yarn-client模式 与 yarn-cluster模式 对比分析

目录 1、yarn-client 模式 2、yarn-cluster 模式 3、对比分析 1、yarn-client 模式 1、driver在本机启动 2、driver跟cluster manager申请资源,yarn-client,ResourceManager 3、RM分配一个...

2019-07-08 19:09:34 341 0

原创 Spark 之 standalone 模式多个application(作业)资源调度

目录 1、默认情况 2、修改配置 1、默认情况 standalone集群对于同时提交上来的多个作业,仅仅支持FIFO调度策略,也就是先入先出;默认情况下,集群对多个作业同时执行的支持是不好的,没有办法同时执行多个作业;因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源,此...

2019-07-08 11:13:14 248 0

原创 Spark 之 BlockManager 原理分析

目录: 1、BlockManagerMaster 2、BlockManager 3、MemoryStore 4、DiskStore 5、ConnectionManager 6、BlockManagerWoker 7、四个组件关系(总结) 1、BlockManagerMaster 1...

2019-06-26 18:16:14 43 0

原创 Spark 之 Task 原理分析

目录 1、接收请求,准备操作 2、处理阶段 ShuffleMapTask 3、处理阶段 ResultTask 1、接收请求,准备操作 Executor 接收到了LaunchTask的请求后,在TaskRunner中会做一些准备工作,例如:反序列化Task,因为Task发送过来时,是被序列化...

2019-06-26 14:28:40 153 0

原创 Spark Streaming 架构原理分析

目录: 1、StreamingContext 2、ReceiveTracker 组件 3、DStreamGraph组件 4、JobGenerator 组件 5、JobScheduler 组件 1、StreamingContext streamingContext 是 spark ...

2019-06-23 22:35:20 200 0

原创 关于MySQL中删除操作 drop、truncate 和 delete 对比分析

目录 1、三个关键字的删除强度 2、三个关键字的区别 1、三个关键字的删除强度 删除强度(强 -> 弱):drop > truncate > delete 2、三个关键字的区别 drop table tb 删除表结构和表中所有的数据 并无法找回 truncate t...

2019-06-17 19:45:15 56 0

原创 spark 性能调优之shuffle

目录 1、shuffle block file 合并 2、提高缓存数值 3、延迟失败次数,提高失败重试次数 4、提高reduce 端内存占比 1、shuffle block file 合并 new SparkConf().set("spark.shuffle.consolida...

2019-06-13 11:32:45 57 0

原创 spark 内核架构分析

目录 1、sparkcontext 2、TaskScheduler 组件 3、DAGScheduler组件 1、sparkcontext spark-submit,这个shell 脚本会有自己编写的spark程序 Application,以及相关要求资源信息。由于基于Standalon...

2019-06-11 22:47:58 61 0

原创 SQL 相关查询语句执行顺序

MySQL的语句一共分为11步: 最先执行的总是FROM操作,最后执行的是LIMIT操作。 其中每一个操作都会产生一张虚拟的表,这个虚拟的表作为一个处理的输入。 只是这些虚拟的表对用户来说是透明的,但是只有最后一个虚拟的表才会被作为结果返回。 如果没有在语句中指定某一个子句,那么将会跳过相应的步...

2019-05-27 11:13:41 46 0

原创 spark 作业性能调优

目录 1、分配更多资源、并行度、RDD架构与缓存 2、shuffle 调优 3、算子调优 4、JVM调优、广播大变量、kryo序列化、fastutil优化数据格式等 5、troubleshooting 6、数据倾斜 1、分配更多资源、并行度、RDD架构与缓存 分配更多资源: spa...

2019-05-18 06:33:41 51 0

原创 运行spark程序报 must be at least 4.718592E8. Please use a larger heap size.错误及解决方法

目录: 1/ 出现问题: 运行spark程序时,控制台出现 System memory 202768384 must be at least 4.718592E8. Please use a larger heap size. 2/解决方法: conf.set("spark.t...

2019-04-23 23:09:36 121 0

原创 大数据常见命令汇总ING....

1/hdfs 启动 start-dfs.sh 2/yarn 启动 start-yarn.sh 3/hive 启动 hive 4/hive 创建表 create table users(id int, name string) row format delimited fields term...

2019-04-14 23:11:00 172 0

原创 Linux 系统中环境变量/etc/profile、/etc/bashrc、~/.bashrc的区别【整理版】

目录 1. 解答整理 2. 参考文章 1. 解答整理 1> etc目录下存放系统管理和配置文件 (系统配置) etc/profile: profile为所有的用户设置系统范围的环境变量和启动顺序,当用户登录时读取该文件,这个文件对每个shell都有效。 /etc/bashrc:为每...

2019-04-14 17:34:07 859 0

原创 【LeetCode 02】两数相加-----单链表

目录 1.问题:两数相加 2.方案:单链表 1.问题:两数相加 给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。 如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。 您可以假设除了数字 0 ...

2019-04-10 11:16:52 93 0

提示
确定要删除当前文章?
取消 删除