王杰0110-CSDN博客

转载 centos命令行常用快捷键

Ctrl + u 删除光标之前到行首的字符Ctrl + k 删除光标之前到行尾的字符Ctrl + c 取消当前行输入的命令，相当于Ctrl + BreakCtrl + a 光标移动到行首（ahead of line），相当于通常的Home键Ctrl + e 光标移动到行尾（end ...

2019-05-12 09:09:26 1124

　　　　　　序言　　　　　　　　　为什么有时候学着学着会突然之间觉得一切度是那么无趣，男的每个月也有那么几天难道？哈哈，不然是什么，我还是要坚持，可以做少一点，但是不能什么度不做。总会过去的，加油　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　--WH...

2019-05-12 09:08:25 268

转载 hive删除数据、删除分区、删除库表

hive删除数据、删除分区、删除库表-- 删除库 drop database if exists db_name; -- 强制删除库 drop database if exists db_name cascade; -- 删除表 drop table if exists employee; -- 清空表 truncate table employee; -- 清...

2019-05-11 11:24:18 5918

转载 Apache Spark 内存管理详解

Apache Spark 内存管理详解Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的...

2019-05-11 11:12:55 208

转载大数据学习之路108-spark streaming基于redis历史state统计

我们之前使用spark streaming做过基于mysql的历史state统计，但是当时的方法很笨，因为写到mysql中第一是性能不好，第二是编码麻烦，所以一般不会有人那么做。而且当时的数据来源是socket。所以现在我们的业务就是：通过一个客户端工具实时的写数据到kafka中，然后通过spark streaming实时的监控并消费出来。写入到redis中进行实时的统计。首先我们需要写一个...

2019-05-11 11:06:08 357

转载干货 | 如何成为大数据Spark高手

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技...

2019-05-11 10:59:25 158

转载 Linux(centos7)下查看MySQL的安装路径

Linux(centos7)下查看MySQL的安装路径.Linux下查看mysql、apache是否安装,并卸载。指令 ps -ef|grep mysql 得出结果 1.root 17659 1 0 2011 ? 00:00:00 /bin/sh /usr/bin/mysqld_safe –datadir=/var/lib/mysql –socket=/v...

2019-05-11 10:52:10 34400 4

转载 mysql 查看当前使用的配置文件my.cnf的方法

my.cnf是mysql启动时加载的配置文件，一般会放在mysql的安装目录中，用户也可以放在其他目录加载。安装mysql后，系统中会有多个my.cnf文件，有些是用于测试的。使用locate my.cnf命令可以列出所有的my.cnf文件命令locate my.cnf输出/usr/local/Cellar/mysql/5.6.24/my.cnf/usr/local/Cellar/...

2019-05-11 10:50:30 211

转载数据采集之解析Mysql的binlog日志发送至Kafka实时消费

本文采用Maxwell来实现实时解析mysql的binlog日志发送至kafka1、开启mysql binlog 环境中mysql是docker容器,所以需要进入容器修改mysql配置. docker exec -it ef07dab4da9d bash 然后进入/etc/mysql/ 修改my.cnf 增加如下内容 server-id=1 log-...

2019-05-11 10:25:16 2201

转载 StreamSets MySQL Binlog解析配置

MySQLbinlog日志作为用于MySQL主从复制的途径。 MySQL复制允许通过binlog维护多个将数据从主服务器复制到从属服务器的副本。 StreamSets可以从MySQL主数据库捕获更改，然后将更改的数据传递到Data Collector管道。GTID是MySQL数据库事务的全局唯一ID，在MySQL中无论GTID是否打开都可以通过StreamSets处理MySQL binglog。...

2019-05-11 10:21:17 3741

转载漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成：先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计...

2019-05-11 10:14:59 184

转载 MySQL 解决 emoji表情的方法，使用utf8mb4 字符集(4字节 UTF-8 Unicode 编码)

前段时间做项目遇到APP评论中有 emoji 表情符号，结果导致插入 MySQL 数据库失败，时隔好久了，现在整理一下。一、基本原则如果要实现存储 emoji 表情到 MySQL 实例，需要应用客户端、到 MySQL 实例的连接、MySQL 实例内部 3 个方面统一使用或者支持 utf8mb4 字符集。注：关于 utf8mb4 字符集，请参考&...

2019-05-11 09:58:24 458

转载 Binlog的三个业务应用场景

1.什么是binlog binlog是mysql的一种二进制日志文件，用来记录数据的变化。mysql使用binlog进行主从复制，如图：客户端向master的mysql sever写入数据当数据发生变化时，master将变更的数据记录写入到二进制文件中，即binlog。slave订阅了master的binlog，所以会通过一个I/O THREAD与master的DUMP T...

2019-04-18 10:44:29 636

转载数据仓库架构和建设方法

阅读更多 1.数据仓库概要1.1.数据仓库起因在建设数据仓库之前，数据散落在企业各部门应用的数据存储中，它们之间有着复杂的业务连接关系，从整体上看就如一张巨大的蜘蛛网：结构上错综复杂，却又四通八达。在企业级数据应用上单一业务使用方便，且灵活多变；但涉及到跨业务、多部门联合应用就会存在：①数据来源多样化，管理决策...

2019-04-18 10:32:29 2523

转载 Spark Shuffle FetchFailedException解决方案

在大规模数据处理中，这是个比较常见的错误。报错提示SparkSQL shuffle操作带来的报错org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0org.apache.spark.shuffle.Fe...

2019-04-17 17:15:16 1926

转载 spark 资源大小分配与并行处理

起因写这篇博客的起因我在跑一个spark job时，有时能跑通，有时跑不通。程序的需求是对比两个hbase表。程序逻辑很简单，分别从两个hbase表读取全量数据，然后以cogroup二者，对比同一个rowkey下每个列是否一致。跑不通的错误日志如下：17/02/25 21:24:20 INFO collection.ExternalAppendOnlyMap: Threa...

2019-04-17 17:08:46 2285

转载『 Spark 』14. 一次 Spark SQL 性能提升10倍的经历

写在前面本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录，所以一切以能够理解为主，没有必要的细节就不会记录了，而且文中有时候会出现英文原版文档，只要不影响理解，都不翻译了。若想深入了解，最好阅读参考文章和官方文档。其次，本系列是基于目前最新的 spark 1.6....

2019-04-17 16:10:15 802

转载 spark jdbc(mysql) 读取并发度优化

很多人在spark中使用默认提供的jdbc方法时，在数据库数据较大时经常发现任务 hang 住，其实是单线程任务过重导致，这时候需要提高读取的并发度。下文以 mysql 为例进行说明。在spark中使用jdbc在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-conn...

2019-04-17 15:29:18 1149 1

转载 Spark Sql 二次分组排序取TopK

基本需求用spark sql求出每个院系每个班每个专业前3名样本数据数据格式：id,studentId,language,math,english,classId,departmentId，即id，学号，语文，数学，外语，班级，院系1,111,68,69,90,1班,经济系2,112,73,80,96,1班,经济系3,113,90,7...

2019-04-17 15:16:43 1086

转载【Spark系列8】Spark Shuffle FetchFailedException报错解决方案

前半部分来源：http://blog.csdn.net/lsshlsw/article/details/51213610后半部分是我的优化方案供大家参考。+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++SparkSQL shuffle操作带来的报错org....

2019-04-17 15:11:34 1149

转载 Spark GC 调优

我们的Spark环境目前主要问题是数据量大后一些task的GC Time 特别长，多则几分钟，少则几十秒，实在不能忍受。参考databricks的 Tuning Java Garbage Collection for Spark Applications对我们的环境优化后，效果比较明显。选择垃圾收集器如果分配给单个Executor的...

2019-04-17 15:05:07 1495

转载 GC overhead limit exceeded : Spark

我在运行Spark程序的时候报错java.lang.OutOfMemoryError：GC overhead limit exceeded伴随着通常有:java.lang.OutOfMemoryError：Java heap spaceorg.apache.spark.shuffle.FetchFailedException:Failed to connect to ......

2019-04-17 14:57:05 5226

转载 Hive中order by，sort by，distribute by，cluster by的区别

一：order byorder by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。关于order by的详细介绍请参考这篇文章：Hive Order by操作。二：sort bysort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort by进行排序...

2019-04-16 16:02:00 235

转载聚集索引与非聚集索引的总结

一.索引简介众所周知，索引是关系型数据库中给数据库表中一列或多列的值排序后的存储结构，SQL的主流索引结构有B+树以及Hash结构，聚集索引以及非聚集索引用的是B+树索引。这篇文章会总结SQL Server以及MySQL的InnoDB和MyISAM两种SQL的索引。SQL Sever索引类型有：唯一索引，主键索引，聚集索引，非聚集索引。MySQL 索引类型有：唯一索引，主键（聚集）索引，非...

2019-03-29 18:16:55 126

转载 MySQL主从复制（Master-Slave）与读写分离(MySQL-Proxy)实践

Mysql作为目前世界上使用最广泛的免费数据库，相信所有从事系统运维的工程师都一定接触过。但在实际的生产环境中，由单台Mysql作为独立的数据库是完全不能满足实际需求的，无论是在安全性，高可用性以及高并发等各个方面。因此，一般来说都是通过主从复制（Master-Slave）的方式来同步数据，再通过读写分离（MySQL-Proxy）来提升数据库的并发负载能力这样的方案来进行部署与实施的。如下...

2019-03-26 16:12:28 222

转载 [Spark Sql]-- spark 累加历史 + 统计全部 + 行转列

感谢原文作者：https://www.cnblogs.com/piaolingzxh/p/5538783.htmlspark 累加历史主要用到了窗口函数，而进行全部统计，则需要用到rollup函数1 应用场景：　　1、我们需要统计用户的总使用时长（累加历史）　　2、前台展现页面需要对多个维度进行查询，如：产品、地区等等　　3、需要展现的表格头...

2019-03-18 17:45:42 383

转载 spark读取MySQL大Table的效能问题

在测试从Spark Shell读取MySQL一张Large Table时，发生了Out of memory和connection timeout问题，记录一下处理的过程：MySQL Table资料笔数：1400万笔左右Spark Cluster配置：Master * 1，Slave * 3，皆为1 core 8G&amp;amp;nbsp;Spark版本：2.1.1星火配置配置：spark-env.s...

2019-03-13 16:32:19 1120

转载 Hive开窗函数总结

背景：平常我们使用 hive或者 mysql时，一般聚合函数用的比较多。但对于某些偏分析的需求，group by可能很费力，子查询很多，这个时候就需要使用窗口分析函数了~ 注：hive、oracle提供开窗函数，mysql不提供版本：Hive 1.1.0 + cdh5.13.0一、介绍分析函数用于计算基于组的某种聚合值，它和聚合函数的...

2019-03-07 14:46:10 928

转载 hive开窗函数over(partition by ......)用法

一、over(partition by ......)主要和聚合函数sum()、count()、avg()等结合使用，实现分组聚合的功能示列:根据day_id日期和mac_id机器码进行聚合分组求每一天的该机器的销量和即sum_num，hive sql语句:select day_id,mac_id,mac_color,day_num,sum(day_num)over(partition by ...

2019-03-07 10:43:07 1336

转载 Hadoop压缩格式中“是否可切分”字段说明

文件压缩有两个好处：减少存储文件所需的磁盘空间，并加速数据在网络和磁盘上的传输在存储中，所有算法都要权衡空间/时间；在处理时，所有算法都要权衡CPU/传输速度以下列出了与Hadoop结合使用的常见压缩方法：压缩格式工具算法文件扩展名是否可切分 DEFLATE 无 DEFLATE...

2019-02-28 14:56:34 1277 1

转载 Spring常用注解介绍【经典总结】

Spring的一个核心功能是IOC，就是将Bean初始化加载到容器中，Bean是如何加载到容器的，可以使用Spring注解方式或者Spring XML配置方式。Spring注解方式减少了配置文件内容，更加便于管理，并且使用注解可以大大提高了开发效率！下面按照分类讲解Spring中常用的一些注解。一：组件类注解思考：Spring怎么知道应该把哪些Java类当成bean注册到容器中呢？答案...

2019-02-01 10:48:19 500 1

转载 IDEA 代码格式化，快捷键

功能快捷键一键格式化代碼： Ctrl+Alt+L全局搜索替换：ctrl+shift+r强大的搜索功能，shift+shift (无论您想要搜啥都能找到)ctrl+shift+R==搜索类 CTRL+N：按照类名搜索类【常规】Ctrl+Shift + Enter，语句完成“！”，否定完成，输入表达式时按 “！”键Ctrl+E，最近的文件Ctrl+Shift+E，最近更改的文件...

2019-01-31 17:08:33 12430 3

转载 JAVA设计模式之工厂模式(简单工厂模式+工厂方法模式)

&amp;amp;amp;amp;amp;amp;amp;nbsp;在面向对象编程中, 最通常的方法是一个new操作符产生一个对象实例,new操作符就是用来构造对象实例的。但是在一些情况下, new操作符直接生成对象会带来一些问题。举例来说, 许多类型对象的创造需要一系列的步骤: 你可能需要计算或取得对象的初始设置; 选择生成哪个子对象实例; 或在生成你需要的对象之前必须先生成一些辅助功能的对象。在这些情况,新对象的...

2019-01-30 18:06:12 140

转载分布式事务的实现原理

&amp;lt;ul class=&quot;section-nav markdown-toc-relative&quot;&amp;gt;事务实现原理事务日志并发控制分布式事务2PC 与 3PC3PCXA 事务SagaLLT协同与编排下游约束小结消息服务总结相关文章Reference事务是数据库系统中非常有趣也非常重要的概念，它是数据库管理系统执行过程中的一...

2019-01-30 18:03:19 213

转载『浅入深出』MySQL 中事务的实现

&amp;amp;amp;amp;amp;amp;lt;ul class=&amp;amp;amp;amp;amp;quot;section-nav markdown-toc-relative&amp;amp;amp;amp;amp;quot;&amp;amp;amp;amp;amp;amp;gt;原子性回滚日志事务的状态并行事务的原子性持久性重做日志回滚日志和重做日志隔离性事务的隔离级别隔离级别的实现

2019-01-30 17:35:05 460

转载 Java项目下的classpath路径包括哪里

项目里用到了classpath路径来引用文件，那么classpath指的是哪里呢我首先把上面的applicationContext.xml文件放在了src目录下发现可以。那么classpath到底是哪里呢，在网上看了几篇博客画黄线部分解释了我放在src目录下能用classpath：访问的问题。但是红线部分，他...

2019-01-30 17:10:12 335

转载 Springboot系列：@SpringBootApplication注解

在使用 Springboot 框架进行开发的时候，通常我们会在 main 函数上添加 @SpringBootApplication 注解，今天为大家解析一下 @SpringBootApplication，如有不正之处，欢迎批评指正。@SpringBootApplication@SpringBootApplication源码如下：@Target(...

2019-01-30 16:53:47 250

原创博客测试

博客测试欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown...

2019-01-30 16:38:45 279

空空如也

win7下使用SecureCRT无法登陆linux