自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 scala之使用scalikejdbc操作数据库

scalikejdbc的简介: ScalikeJDBC是一款给Scala开发者使用的简介访问类库,它是基于SQL的,使用者只需要关注SQL逻辑的编写,所有的数据库操作都交给ScalikeJDBC。这个类库内置包含了JDBCAPI,并且给用户提供了简单易用并且非常灵活的API。并且,QueryDSl...

2020-03-30 22:45:00

阅读数 17

评论数 0

原创 hive中的窗口函数详解

概念: 我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。 窗口函数与分析函数 应用场景:...

2020-03-29 22:42:00

阅读数 7

评论数 0

转载 关系型数据库事务一:概念

事务是将一组读写操作组合在一起形成一个逻辑单元。这些操作要么全部执行成功提交(commit),要么全部中止失败(abort,rollback),不会留下一个中间状态的烂摊子。所以,失败后程序可以安全的重试,分析原因等。 相反,如果没有对事务的支持,数据库可能持久化很多中间状态,留下无法解释的业务,...

2020-03-24 17:28:22

阅读数 11

评论数 0

原创 生产上Canal与Maxwell颠峰对决

Canal 阿里的中间键组件 https://github.com/alibaba/canal Maxwell https://github.com/zendesk/maxwell producer:stdout kafka 常用架构: MySQL ----- 中间件mcp...

2019-09-19 07:50:47

阅读数 680

评论数 0

原创 Mysql主从同步的实现原理

1、什么是mysql主从同步? 当master(主)库的数据发生变化的时候,变化会实时的同步到slave(从)库。 2、主从同步有什么好处? 水平扩展数据库的负载能力 容错,高可用;Failover(失败切换)/High Availability 数据备份 3、主从同步的原理是什么? 首先我们...

2019-09-18 22:41:47

阅读数 31

评论数 0

原创 MySQL主从复制及生产如何采集至大数据

Topic:Mysql PostgreSQL Cassandra 1.搭建部署单节点 这里我们用mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz 5.6与5.7版本还是有小差异的 5.6 root进去的时候是没有密码的 5.7的密码保存在log-error中...

2019-09-18 22:33:46

阅读数 22

评论数 0

原创 Hbase入门以及Phoenix生产实战

Hbase官网http://hbase.apache.org/ Phoenix官网http://phoenix.apache.org/ 1.Hbase入门 1.1定位 Hadoop database, a distributed, scalable, big data ...

2019-09-18 22:18:28

阅读数 35

评论数 0

原创 ElesticSearch6.6.0入门和安装部署

官网下载地址:https://www.elastic.co/cn/downloads/ ElesticSearch背景及介绍 ELK是三个组件的头字母简称: Elasticsearch(ES):对数据进行搜索、分析和存储;也是个NoSQL,类似于Redis/HBase/… Logsta...

2019-09-15 19:17:12

阅读数 20

评论数 0

原创 JavaSE:多线程

1、多线程定义 进程: 正在运行的程序,是系统进行资源分配和调用的独立单位。 每一个进程都有它自己的内存空间和系统资源。 线程: 是进程中的单个顺序控制流,是一条执行路径 一个进程如果只有一条执行路径,则称为单线程程序。 一个进程如果有多条执行路径,则称为多线程程序。 是程...

2019-09-15 18:23:55

阅读数 12

评论数 0

转载 JavaSE:集合

1、Collection集合 1.1、集合的由来: 1)、我们学习的是面向对象语言,而面向对象语言对事物的描述是通过对象体现的,为了方便对多个对象进行操作,我们就必须把这多个对象进行存储。 2)、而要想存储多个对象,就不能是一个基本的变量,而应该是一个容器类型的变量,在我们目前所学过的知识里面,...

2019-09-02 09:29:42

阅读数 15

评论数 0

原创 JavaSE:异常、IO

1、异常 1.1 异常的体系 Throwable |--Error 严重问题,我们不处理。 |--Exception |--RuntimeException 运行期异常,我们需要修正代码 |--非RuntimeException 编译期异常,必须处理的,否则程序编译不通过 1.2 异...

2019-09-02 07:33:41

阅读数 11

评论数 0

原创 JavaSE:面向对象

1、面向对象 面向对象是基于面向过程的编程思想。 面向对象的思想特点: 是一种更符合我们思考习惯的思想 把复杂的事情简单化 让我们从执行者变成了指挥者 Java程序的开发,设计和特征 开发:就是不断的创建对象,通过对象调用功能 设计:就是管理和维护对象间的关系 特征:封装,继承,多态 2、...

2019-09-01 22:21:59

阅读数 5

评论数 0

原创 JavaSE:面向对象--常用类

1、Object类 Object:类 Object 是类层次结构的根类。每个类都使用 Object 作为超类。 每个类都直接或者间接的继承自Object类。 Object类的方法: public int hashCode():返回该对象的哈希码值。 public fina...

2019-09-01 16:34:36

阅读数 12

评论数 0

原创 JavaSE:基础入门(二)

1、流程控制语句 1.1、if/elseif/else 表达式里的最终返回值是boolean值 格式1 if(比较表达式) { 语句体; } 格式2 if(比较表达式) { 语句体1; }else { 语句体2; } 格式3 if(比较表达式1) { 语句体1; }else if(比...

2019-09-01 16:15:15

阅读数 37

评论数 0

原创 JavaSE:基础入门(一)

1、关键字 被java赋予特定含义的单词,特点:全部都是小写 以下是java的关键字列表,先了解下即可,其中void就是关键字,而 Void就不是关键字,只是一个占位符的类 访问控制 private protected public 类,方法和变量修饰符 abstrac...

2019-09-01 11:17:52

阅读数 13

评论数 0

原创 CDH5.16:MySQL安装

1.解压及创建目录 //mysql安装目录 /usr/local [root@hadoop39 local]# tar xzvf mysql-5.7.11-linux-glibc2.5-x86_64.tar.gz [root@hadoop39 local]# mv mysql-5.7.11...

2019-08-14 07:47:32

阅读数 85

评论数 0

原创 CDH5.16:离线安装部署

1、准备工作 1.1 离线部署主要分为三块 MySQL离线部署 CM离线部署 Parcel包裹文件离线源部署 1.2 规划 节点 MySQL部署组件 Parcel文件离线源 CM服务进程 大数据组件 hadoop001 MySQL ...

2019-08-12 16:30:02

阅读数 42

评论数 0

原创 Spark SQL入门

背景 SQL:结构化查询语言,主要用来进行统计分析。 Oracle、MySQL、DB2、SQLserver等关系型数据库都用SQL。但是这些关系型数据库对数据量是有限制的。 但是随着互联网的发展,数据量越来越大,关系型数据库越来越难操作这些大数据量的数据。越来越多的传统行业,比如银行、保险等会把原...

2019-07-26 17:22:20

阅读数 13

评论数 0

转载 Spark-Core之调优

https://blog.csdn.net/liweihope/article/details/93533267

2019-07-26 14:22:11

阅读数 10

评论数 0

转载 Spark之Tuning Spark官网翻译

...

2019-07-10 12:13:24

阅读数 19

评论数 0

原创 Spark-Core之spark-shell脚本分析

spark-shell脚本: [hadoop@hadoop001 bin]$ cat spark-shell #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one or m...

2019-07-10 08:52:12

阅读数 10

评论数 0

原创 Spark-Core之map与mapPartitions

<p></p><div class="toc"><h3>文章目录</h3><ul><ul><ul><ul><li><a href="#mapM...

2019-07-09 22:40:16

阅读数 20

评论数 0

转载 spark中map与mapPartitions区别

<p>在spark中,map与mapPartitions两个函数都是比较常用,这里使用代码来解释一下两者区别...

2019-07-09 22:00:59

阅读数 22

评论数 0

原创 Spark-Core之共享变量

参考官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html#shared-variables 默认情况下,如果在一个算子函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作...

2019-07-09 11:08:30

阅读数 11

评论数 0

原创 Spark之Monitor

在跑Spark作业的时候,或者从半夜跑到第二天,你常常需要看下运行信息以及运行情况;这样就可以根据这些运行情况进行调优,由此可见,Spark作业在运行时的监控就显得尤为重要了。 常用的Spark应用程序监控方法有Spark Web UI、Spark HistoryServer UI、REST A...

2019-07-08 22:42:57

阅读数 25

评论数 0

转载 Spark之Monitor 官网翻译

文章...

2019-07-08 10:16:06

阅读数 13

评论数 0

原创 Spark-core之Shuffle

什么是Shuffle? 一个action会触发一个job,一个job遇到shuffle会被拆分成stage,一个stage里有一堆task。 “shuffle”是Spark里的一种运行机制,会对数据进行重新分区或者重新分发;将数据重新分组到不同分区;这中间通常涉及到executor和机器之间复...

2019-07-07 21:45:23

阅读数 17

评论数 0

转载 Spark core中的cache、persist区别,以及缓存级别详解

版权声明:本文为博主原创文章,...

2019-07-07 19:17:50

阅读数 17

评论数 0

原创 Spark on Yarn

1.Spark on Yarn两种模式 一种是cluster模式,一种是client模式。 a.执行命令“./spark-shell --master yarn”默认运行的是client模式。 b.执行"./spark-shell --master yarn-client"...

2019-05-15 14:51:34

阅读数 49

评论数 0

原创 SparkCore之运行架构

Spark架构 详情可以点击官网查看 1.基本概念 Application:用户编写的Spark应用程序。 Driver:Spark中的Driver即运行上述Application的main函数并创建SparkContext,创建SparkContext的目的是为了准备Spark应用程序的...

2019-05-15 13:39:32

阅读数 50

评论数 0

转载 Linux下Oracle开机自启动

1.用oracle用户编辑dbstart文件 登入oracle用户,切换到$ORACLE_HOME/bin目录下,修改文件dbstart。 [oracle@ST ~]$ vi /u01/app/oracle/product/11.2.0/dbhome_1/bin/dbstart修改:看下面...

2019-05-13 14:18:56

阅读数 38

评论数 0

原创 RDD的创建&操作

一、如何创建RDD 1)There are two ways to create RDDs: parallelizing an existing collection in your driver program, 2)referencing a dataset in an extern...

2019-05-12 16:15:09

阅读数 43

评论数 0

原创 RDD深入讲解

RDD源码: https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala 1.什么是RDD: RDD(Resilient Distributed Dataset)弹性分...

2019-05-11 21:05:06

阅读数 38

评论数 0

原创 Spark概述

一、Spark生产背景 1.MapReduce局限性 a.繁杂 ​ map/reduce算子 (mapjoin没有ruduce),low-level,constrained,主要测试用 b.效率低 进程级别:MapTask ReduceTask IO:chain 网络+磁盘 排序:面试题:key...

2019-05-11 18:26:12

阅读数 28

评论数 0

原创 Redhat7 Oracle11g 静默安装

一、安装前的准备 软件环境 软件名称 软件版本 SecureCRT Xshell也可以(用来连接linux服务器) Oracle11g linux.x64_11gR2_database 1.查看主机名 [root@localhost...

2019-05-10 16:03:33

阅读数 583

评论数 1

转载 在Linux中Oracle安装成功后,首次启动使用时,会出现的一些问题总结和解决办法

注意:oracle安装不能用root用户安装,必须新建用户安装   1、  sqlplus命令不识别问题(bash :sqlplus command not found) 当你首次安装oracle后,也许会出现这种情况,第一次或许有点棘手,不知道如何改怎么办。这时不用...

2019-05-10 13:30:04

阅读数 148

评论数 0

转载 Oracle 11g 静默安装-db_install.rsp详解

学习11g静默安装文件配置和解释,大部分的数据是不需要变更的,变更你需要改动的地方,和OUI界面安装结合起来就容易理解了 附录A:db_install.rsp详解 #############################################################...

2019-05-10 13:16:04

阅读数 169

评论数 0

原创 Spark编译hadoop-2.6.0-cdh2.7.0

前提 在这里我们编译的是Spark2.2.0,Hadoop版本为hadoop-2.6.0-cdh5.7.0,Scala版本为2.11.8 更多关于编译Spark2.2.0参见Spark编译官方文档 环境要求 The Maven-based build is the build of referen...

2019-05-05 07:38:34

阅读数 63

评论数 0

原创 Hive之编译源码支持UDF函数

#1.编译支持UDF ##1.1在idea中新建maven项目,并添加相关参数 要引入 hadoop-client hive-exec,以下是maven项目的pom文件 <?xml version="1.0" encoding="UTF-8"?>...

2019-05-01 19:28:38

阅读数 118

评论数 0

原创 解决Hadoop namenode无法启动以及修改hdfs的存放位置

#背景 重启计算机之后,遇到了一个问题,执行start-all.sh之后,执行JPS命令,发现namenode没有启动。 每次开机都得重新格式化一下namenode才可以。 #原因: hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的位置是在/tmp/{$...

2019-04-29 22:33:36

阅读数 460

评论数 0

提示
确定要删除当前文章?
取消 删除