Docker(一):Docker简介与安装

文章目录0、前言一、什么是Docker二、为什么要使用Docker1、更快的交付和部署2、更高效的虚拟化3、更简单的管理三、Docker相关的概念四、Docker安装五、Docker世界的Hello World六、常用命令1、从远程仓库拉取docker镜像。2、 查看宿主机上的镜像,Docker镜...

2019-05-15 19:09:40

阅读数 9

评论数 0

Docker(二):一个简单的Dockerfile实例

文章目录一、Dockerfile 概念二、Dockerfile文件格式三、构建镜像四、简单示例 一、Dockerfile 概念 Docker 镜像是一个特殊的文件系统,除了提供容器运行时所需的程序、库、资源、配置等文件外,还包含了一些为运行时准备的一些配置参数(如匿名卷、环境变量、用户等)。镜像不...

2019-05-15 18:08:12

阅读数 16

评论数 0

Markdown语法

文章目录标准Markdown语法1、快捷键2、基本语法2.1 字体设置斜体、粗体、删除线2.2 分级标题2.3 链接2.4 分割线2.5 代码块2.6 引用2.7 列表2.8 表格csdn扩展后的Markdown语法功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入...

2019-05-13 11:09:59

阅读数 106

评论数 0

Spark 2.2.0 在创建过大的DataFrame时候出现的错误

今天在使用Spark计算标签数据并且将结果存入hive表的时候出现了一些问题。 我是用client模式提交的spark应用,在程序运行到一般的时候,突然出现代码生成器打印出很多奇怪代码的情况。 我当时很奇怪,就立即kill掉了这个应用,并且去看了一下yarn上面对应的日志,发现了报了这样的...

2019-01-23 17:30:27

阅读数 164

评论数 0

Spark SQL 读取hive分区表出现分区字段为null的情况

今天在使用Spark SQL 读取hive分区表数据的时候,出现了下面的错误: 由于这个表是数仓维护提供给我使用的,我并不是很清楚表中数据的情况,于是我取查了一下这个表,发现分区字段pk_year,pk_month,pk_day这几个字段确实都存在为默认的情况: 在hive里面表可以创...

2019-01-23 16:45:02

阅读数 420

评论数 0

最新手机号正则表达式验证方法(scala版)

今天在做运营商标签,其中通话和短信两部分标签需要区分手机号码和非手机号码,并且还要考虑手机号码前面的0086、86等前缀。 首先考虑到手机号码验证最方便的就是正则表达式,于是整理了一份最新的手机号码验证的正则表达式。 以下是三大运营商的号段分布: *移动号段: 134,135,136,137...

2019-01-16 17:09:16

阅读数 434

评论数 0

Kudu select data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu insert data api (scala版) Kudu select data api (scala版) Kudu updata data api (scala版) Kudu...

2018-11-23 16:12:00

阅读数 193

评论数 0

Kudu updata data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu insert data api (scala版) Kudu select data api (scala版) Kudu updata data api (scala版) Kudu...

2018-11-23 16:03:10

阅读数 100

评论数 0

Kudu upsert data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu insert data api (scala版) Kudu select data api (scala版) Kudu updata data api (scala版) Kudu...

2018-11-23 16:00:42

阅读数 350

评论数 0

Kudu delete data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu insert data api (scala版) Kudu select data api (scala版) Kudu updata data api (scala版) Kudu...

2018-11-23 15:54:27

阅读数 202

评论数 0

Kudu insert data api (scala版)

kudu API scala版系列: Kudu create table api (scala版) Kudu select data api (scala版) Kudu updata data api (scala版) Kudu upsert data api (scala版) Kudu...

2018-11-23 15:38:11

阅读数 124

评论数 0

Kudu create table api (scala版)

最近公司准备尝试使用新的数据库kudu,于是做了一点研究。由于我们公司的大数据开发语言是scala,但是kudu官网并没有给出scala的KuduClient API,于是我就对照kudu的java API模仿了一套scala版本的API。 kudu API scala版系列: Kudu in...

2018-11-23 15:29:39

阅读数 196

评论数 0

!= null 还是 is not null

最近在做数据处理的时候由于洗数据的同事没有把应该清洗掉的空值洗掉,所以让我在程序处理的过程中遇到了一些麻烦。发现这些空值后,我就想在SQL中将这些空值的数据洗掉。于是用到了!= null ,可是当我再次执行程序的时候,发现运算结果竟然一条结果都没有,我百思不得其解,后来经过分析,只有!=null ...

2018-09-29 17:21:53

阅读数 153

评论数 0

浮点数运算原理详解

导读:浮点数运算是一个非常有技术含量的话题,不太容易掌握。许多程序员都不清楚使用==操作符比较float/double类型的话到底出现什么问题。 许多人使用float/double进行货币计算时经常会犯错。这篇文章是这一系列中的精华,所有的软件开发人员都应该读一下。   随着你经验的增长,你肯定...

2018-09-03 22:47:45

阅读数 585

评论数 0

String.split函数的用法

今天一个朋友问了我一个关于split的问题,突然发现以前都是使用的默认情况,全然不知spilt竟然是有两个参数的。 那么这里就好好再来学习一下split的用法。 spilt函数主要有两种参数形式: public String[] split(String regex) public St...

2018-08-30 15:38:13

阅读数 682

评论数 0

使用shell脚本批量删除hive表

这两天由于测试程序,在hive的库里面建了好多表,测试完之后这些表就都没用了,几十个表要一个一个手动删除是很痛苦的,于是想到使用shell脚本来自动批量删除。 另外库里面的有些表是还有用的,有些表是没有用的,所以不能清库,所以我想到将要删除的表的表名写入一个文件中,然后使用shell来去读这个文...

2018-08-23 23:32:58

阅读数 1027

评论数 0

hive表导入数据的几种方式

今天在做hive数据迁移到hbase的测试的时候,建了hive表,然后将HDFS中的数据导入hive表中,后面还需要用到该数据,却发现原来HDFS路径下的文件消失了,当时一脸懵B,琢磨了好久,还是没想明白是怎么回事。于是上网百度了一波,最后发现原来是hive内部表导入hdfs数据的时候执行的是移动...

2018-08-14 21:33:03

阅读数 124

评论数 0

使用Java读取Excel文件实现自动对数据

        这段时间遇到一系列spark系统重构的需求,每个独立程序在重构之后跑出来的数据都需要和原来程序跑出来的数据进行比对, 已确定重构的代码是否正确。        虽然不需要全量比对,只要抽样几十条数据比对就行,但是由于数据字段很多,即使将新旧两份数据下载到Excel表中,放在一起比...

2018-08-06 19:41:32

阅读数 120

评论数 0

empty.min(empty.max)报错

最近写代码的时候碰到一个以前没有见过的错误(如下图),找了很久也不知道是什么原因。 报错的代码如下: 在网上查了很多博客,基本上都是说使用Iterator(迭代器)的时候出现了多次遍历的问题。 因为Iterator的max和min方法是TraversableOnce(可遍历一次,遍历...

2018-07-31 10:54:51

阅读数 100

评论数 0

Scala Iterator(迭代器)

Scala Iterator(迭代器)不是一个集合,它是一种用于访问集合的方法。 迭代器 it 的两个基本操作是 next 和 hasNext。 调用 it.next() 会返回迭代器的下一个元素,并且更新迭代器的状态。 调用 it.hasNext() 用于检测集合中是否还有元素。 让迭代...

2018-07-26 17:32:06

阅读数 56

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭