Autumn_tears-CSDN博客

原创 scala入门知识

scala简介运行在jvm之上双范式面向对象函数式编程兼容java的所有类库开发环境scala SDK的安装：安装2.11.12版本IDEA中安装scala的插件：注意选择与IDEA对应的版本scala解释器打开解释器123退出解释器：【:quit】声明变量val：定义不可重新赋值的变量var：定义可重新赋值的变量惰性赋值：lazy val xxx=…字符串双引号：""插值表达式：s“${xxx}”三引号： “”" xxx .

2020-09-24 21:21:40 174

原创 scala相关操作（四)

模式匹配34.1 简单模式匹配package com.ithe.scalaimport scala.io.StdIn/*** 34.1 简单模式匹配* 示例* 需求说明* 1. 从控制台输入一个单词（使用StdIn.readLine方法）* 2. 判断该单词是否能够匹配以下单词，如果能匹配，返回一句话* 3. 打印这句话* 单词返回* hadoop 大数据分布式存储和计算框架* zookeeper 大数据分布式协调服务框架* spark 大数.

2020-09-24 21:09:53 280

原创 redis常见问题及解决方案

1. make:cc：命令未找到，make:***[adlist.o]错误127解决方法：安装gcc，命令如下：yuminstallgcc2. Redis编译错误Killing still running Redis server 4966 Killing still running Redis server 4966Killing still running Redis server 4971 Killing still running Redis serv...

2020-09-23 14:49:56 797

原创 scala相关操作（三）

单例对象24.1 定义单例对象package com.ithe.scala/***24.1 定义单例对象* 示例* 示例说明* 1定义一个Dog单例对象，保存狗有几条腿* 2在main方法中打印狗腿的数量*/object Demo24_1 { // 1定义一个Dog单例对象，保存狗有几条腿 object Dog{ val LEG_NUM=4 } // 2在main方法中打印狗腿的数量 def main(args: Array[String]): Unit = { .

2020-09-22 19:24:33 329

原创 scala相关操作（二）

数组11.1 定长数组/**示例一1. 定义一个长度为100的整型数组2. 设置第1个元素为1103. 打印第1个元素**/val arr = new Array[Int](100)arr(0)=110println(arr(0))/**示例二1. 定义一个包含以下元素的数组"java", "scala", "python"2. 获取数组长度**/val arr = Array("java","scala","python")println(arr.length).

2020-09-21 18:59:01 462

原创 scala相关操作（一）

1.在解释器中定义一个变量val name:String="tom"val和var变量name = "jim" <console>:12: error: reassignment to val name = "Jim"var name:String="tom"name="jim" 使用类型推断来定义变量val name = "tom"4 惰性赋值lazy val sql = """insert overwrite table adm.

2020-09-19 20:18:50 456 1

原创 redis基础操作

# 一、基于string类型操作# 设置获取KeySET hello worldGET hello# MSET（Multi）支持批量设置key、MGET支持批量获取keyMSET hello1 world1 hello2 world2MGET hello1 hello2# 设置一个key，并指定过期时间SETEX hello3 5 world# 使用INCR来进行累加操作SET PV 1INCR PV# 二、基于hash类型操作# 记住：大key、小key# 设置Hash

2020-09-10 19:39:56 145

原创 ES的基础操作

#分词器 ik_max_wordPOST _analyze{ "analyzer": "ik_max_word", "text": "南京市长江大桥"}#分词器 ik_smartPOST _analyze{ "analyzer": "ik_smart", "text": "南京市长江大桥"}###索引库操作#创建索引库put /itheima#查看索引库get /itheima#删除索引库delete /itheima#查看索引库get /ithe...

2020-09-03 18:03:29 148

原创 hive分区相关简述

Hive(Inceptor)分区又分为单值分区、范围分区。单值分区根据插入时是否需要手动指定分区可以分为：单值静态分区：导入数据时需要手动指定分区。单值动态分区：导入数据时，系统可以动态判断目标分区。创建静态分区直接在 PARTITIONED BY 后面跟上分区键、类型即可。（分区键不能和任何列重名）创建动态分区创建方式与静态分区表完全一样，一张表可同时被静态和动态分区键分区，只是动态分区键需要放在静态分区键的后面（因为HDFS上的动态分区目录下不能包含静态分区的子目录）..

2020-08-21 10:07:30 1893

原创 hive的数据压缩格式和存储格式

1.Textfile：Hive数据表的默认格式可以使用Gzip压缩算法，但压缩后的文件不支持split2.SEQUENCEFILESequence File是可分割的文件格式，支持Hadoop的block级压缩。3.RCFILE数据按行分块，每块按列存储4.ORCFILE数据按行分块，每块按照列存储1.gzip压缩不支持split，当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式2.zlib压缩支持orcfile格式，性..

2020-08-20 20:59:22 709

原创内存溢出问题的解决方案

在大数据开发测试时，可以通过分区或分桶采样的方式。分区针对的是固定日期，而分桶采样则侧重随机，更具有代表性。由于第一次是全量抽取数据，所以日期分区下的数据非常庞大，此时使用分桶来进行采样测试可以大幅提升效率。在select之前可以添加Explain，先来查看查询执行计划（不是实际运行mapreduce)，可以看到分桶采样已经生效，提高了开发和测试效率。执行select语句进行抽样时发现报错（处理的数据量大时都可能报此错误）：解决方法：在执行SQL前，设置：sethive.e.

2020-08-20 20:48:07 705

原创对于数据倾斜问题的几个解决方法

1.Map数1.1 通常情况下，作业会通过input的目录产生一个或者多个map任务主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M，可在hive中通过set dfs.block.size;命令查看到)；map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。 mapred.min.split.size这个配置项决定了每个 Input Split

2020-08-20 20:31:27 951

原创 HIVE SQL的简单优化

1.列裁剪Hive在读数据的时候，可以只读取查询中所需要用到的列，而忽略其他列，这样做节省了读取开销，中间表存储开销和数据整合开销参数设置： hive.optimize.cp=true（默认值为真，该参数已被移除）2.分区剪裁可以在查询的过程中减少不必要的分区在对分区表进行查询时，优化器会检查谓词条件中是否存在对分区字段的过滤，如果存在，则可以仅访问符合条件的分区在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤...

2020-08-20 20:26:50 306

原创 HIVE的常用优化方式

1.开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量开启hive中间传输数据压缩功能set hive.exec.compress.intermediate=true;开启mapreduce中map输出压缩功能set mapreduce.map.output.compress=true;设置mapreduce中map输出数据的压缩方式set mapreduce.map.output.compress.codec=org.apache.hadoop.io.

2020-08-20 20:24:33 327

Autumn_tears的博客