大数据
文章平均质量分 61
IT猫咪酱
成为更有价值的攻城狮
展开
-
【云计算】通俗易懂讲云计算与虚拟化区别
本文转自知乎一篇回答,通俗易懂的云计算入门篇-概念介绍https://www.zhihu.com/question/22793847转载 2021-09-09 11:03:16 · 152 阅读 · 0 评论 -
【hive】beeline常用操作指令
1、!connect url –连接不同的Hive2服务器2、!exit –退出shell3、!help –显示全部命令列表4、!verbose –显示查询追加的明细The Beeline CLI 支持以下命令行参数: Option Description --autoCommit=[true/false] ---进入一个自动提交模式:beeline --autoCommit=true --autosave=[true/false] ---进入一个自动保存模式:beel.转载 2020-12-03 20:21:45 · 3410 阅读 · 0 评论 -
【hive】limit查询优化
limit不优化会全部查询后,再返回部分优化后:对数据源抽样返回开启优化参数:hive.limit.optimize.enable=true //开启对数据源进行采样的功能hive.limit.row.max.size=100000 //设置最小采样容量。默认10万hive.limit.optimize.file=10 //可抽样的最大文件数。默认10个缺点:可能输入中有用的数据永远都不会被抽样到。(1)配置文件Hive 的配置文件包括: A. 用...原创 2020-11-19 19:45:33 · 2422 阅读 · 0 评论 -
【报错】Error: JAVA_HOME is incorrectly set. Please update E:\hadoop-2.5.2\conf\hadoop-env.cmd
问题:yarn install无法使用,报错如下Error: JAVA_HOME is incorrectly set. Please update E:\hadoop-2.5.2\conf\hadoop-env.cmdUsage: yarn [--config confdir] COMMAND where COMMAND is one of:解决方法:C:\Program Files\Java\jdk1.8.0_271改成JAVA_HOME=C:\PROG...原创 2020-11-07 11:21:37 · 386 阅读 · 0 评论 -
【scala】下划线的各种用法
第一:初始化的时候。object Sample { var name:String=_ def main (args: Array[String]){ name="hello world" println(name) }在这里,name也可以声明为null,例:var name:String=null。这里的下划线和null的作用是一样的。第二:引入的时候。import math._object Sample { def main (args: Array...转载 2020-06-07 16:44:44 · 279 阅读 · 0 评论 -
【scala】scala中的各种符号
. 泛型限定泛型中的符号 <: >: <% : + -符号 作用[T <: UpperBound] 上界[T >: LowerBound] 下界[T <% ViewBound] 视界[T : ContextBound] 上下文界[+T] 协变[-T] 逆变参考:https://blog.csdn.net/datadev_sh/article/details/79589238#t42. 集合操作符:: +:...转载 2020-06-07 16:39:28 · 797 阅读 · 0 评论 -
【hadoop】split大小设置和map数量设置
三个参数决定split1.mapred.min.split.size2.mapred.max.split.size3.dfs.block.size根据公式:max(minimumSize,min(maximumSize,blockSize))默认情况:minimumSize < blockSize < maximumSizemin默认为1,max默认为long类型...原创 2020-05-08 11:39:50 · 2641 阅读 · 0 评论 -
【hadoop】reduce数量控制
1、参数变更1.x 参数名 2.x 参数名mapred.tasktracker.reduce.tasks.maximum mapreduce.tasktracker.reduce.tasks.maximummapred.reduce.tasks ...转载 2020-05-08 11:25:34 · 276 阅读 · 0 评论 -
【hadoop】linux下hadoop dfs命令
hdfs dfs、hadoop fs、hadoop dfs三个命令的区别: 在介绍命令之前,首先要知道hdfs dfs、hadoop fs、hadoop dfs三个命令的区别。 hadoop fs:通用的文件系统命令,针对任何系统,比如本地文件、HDFS文件、HFTP文件、S3文件系统等。 hadoop dfs:特定针对HDFS的文件系统的相关操作,但是已经不推...原创 2020-05-07 10:56:36 · 686 阅读 · 0 评论 -
【hadoop】分布式缓存DistributedCache
本文是对MR案例:Map-Join的解读。在hadoop中,共享全局变量或全局文件的几种方法使用Configuration的set()方法,只适合数据内容比较小的场景 将缓存文件放在HDFS上,每次都去读取,效率比较低 将缓存文件放在DistributedCache里,在setup()初始化一次后,即可多次使用,缺点是不支持修改操作,仅能读取DistributedCache是Had...转载 2020-05-07 10:46:55 · 289 阅读 · 0 评论 -
【hive】hive中count(*)、count(1)、count(col)区别
最近看到某公司面试题有这个,顺便查了一下。count(*):所有行进行统计,包括NULL行count(1):所有行进行统计,包括NULL行count(column):对column中非Null进行统计我在集群找了一个表试了一下,结果差距不是很大,因为执行时间会受集群资源的影响,所以看下具体的执行步骤先看结果,count(*)执行时间26sselect count(*)from...转载 2019-10-19 17:03:28 · 1301 阅读 · 0 评论 -
【hive】hive中insert into 和insert overwrite区别
nsert into 和 insert overwrite 都是往表中添加数据区别:insert into:将数据追加到表的末尾insert overwrite:覆盖之前的数据语句:insert into:hive>insert into [table] student select * from stu;(将select * from stu的查询结果追加到student表的后...转载 2019-10-19 16:27:53 · 2259 阅读 · 0 评论 -
【hadoop】hadoop集群中自动failover
1、概述在手动FailOver的基础上,自动Failover增加了两个东西:一个是ZooKeeper集群,一个是ZKFailoverController(简称:ZKFC)ZK集群:作为一个高可靠系统,能够为一小部分协同数据提供监控,将数据的更改随时反应给客户端。HDFS的HA依赖zk提供的两个特性:一个是错误监测,一个是活动节点选举 Failure detection转载 2018-04-24 17:05:05 · 453 阅读 · 0 评论 -
【spark】sprak-scala推荐算法实现
package example/** * Created by zhangyaran on 2017/10/30. */import scala.collection.Mapimport scala.collection.mutable.ArrayBufferimport scala.util.Randomimport org.apache.spark.{SparkCon转载 2017-11-22 11:44:43 · 2337 阅读 · 5 评论 -
【hbase】 Table中Family和Qualifier的关系与区别
Table中Family和Qualifier的关系与区别就像用MySQL一样,我们要做的是表设计,MySQL中的表,行,列的在HBase已经有所区别了,在HBase中主要是Table和Family和Qualifier,这三个概念。Table可以直接理解为表,而Family和Qualifier其实都可以理解为列,一个Family下面可以有多个Qualifier,所以可以简单的理解为,HBase中转载 2017-11-17 16:20:04 · 1500 阅读 · 0 评论 -
【spark】group\groupBy
groupBy(function) function返回key,传入的RDD的各个元素根据这个key进行分组val a = sc.parallelize(1 to 9, 3)a.groupBy(x => { if (x % 2 == 0) "even" else "odd" }).collect//分成两组/*结果 Array((even,ArrayBuffer(2, 4, 6,转载 2017-10-23 14:29:37 · 1306 阅读 · 0 评论 -
【Hbase】单机模式与伪分布式模式安装
开发环境硬件环境:CentOS 6.5 服务器4台(一台为Master节点,三台为Slave节点)软件环境:Java 1.7.0_45、Eclipse Juno Service Release 2、hadoop-1.2.1、hbase-0.94.20。1、 HBase 安装1) 下载安装包hbase-090.3.tar.gz版本与hadoop-1.2.1良好兼容,从转载 2017-04-25 10:37:59 · 426 阅读 · 0 评论 -
【spark】spark计算Pi
cd $SPARK_HOME/bin./spark-submit --master spark://node111:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.1.1.jar 100命令格式:./$SPARK_HOME/bin/spark-submit原创 2017-06-17 17:24:15 · 7040 阅读 · 0 评论 -
【habse】habse1.2.5集群之完全分布式搭建
一、准备工作5台虚拟机免密钥linux虚拟机:centos6.5 hadoop:2.7.3的高可用集群zookeeper:3.4.10jdk:1.8二、hbase集群规划: masterbackup-masterregionserverzookeepernode111 1 1原创 2017-06-19 15:26:48 · 308 阅读 · 0 评论 -
【scala】Scala中lazy关键字的使用和理解
Scala中使用关键字lazy来定义惰性变量,实现延迟加载(懒加载)。惰性变量只能是不可变变量,并且只有在调用惰性变量时,才会去实例化这个变量。在Java中,要实现延迟加载(懒加载),需要自己手动实现。一般的做法是这样的:public class LazyDemo { private String property;public String getProperty()转载 2017-06-23 16:11:04 · 1694 阅读 · 0 评论 -
【hadoop】搭建完整hadoop集群
根据官方文档搭建完整hadoop集群,包括NN, DN , JN , ZK,ZKFC,RS ,NM,参考官方文档:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html1.准备工作 1)克隆四台linux虚拟机 过程原创 2017-03-23 11:10:36 · 659 阅读 · 0 评论 -
【spark】Spark算子:RDD基本转换操作–map、flagMap、distinct
map将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive //读取HDFS文件到RDDscala> var data = sc.textFile("/tmp/lxw123原创 2017-06-27 16:24:28 · 564 阅读 · 0 评论 -
【spark】spark2.1.1集群搭建
安装版本:spark-2.1.1-bin-hadoop2.7.tgz准备操作:创建3台虚拟机,构建基础网络、免密钥、时间同步、HOST配置。并且安装jdk:1.8Master:node111Worker:node112 、node113一、解压tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz二、修改安装目录下/conf/下的配置原创 2017-06-17 15:54:58 · 521 阅读 · 0 评论 -
【scala】case语句和偏函数
Scala通过case语句提供了形式简单、功能强大的模式匹配功能。但是也许你不知道,Scala还具有一个与case语句相关的语言特性,那就是:在Scala中,被“{}”包含的一系列case语句可以被看成是一个函数字面量,它可以被用在任何普通的函数字面量适用的地方,例如被当做参数传递。Scala代码 scala> val defaultValue:Option[Int] =转载 2017-07-07 10:11:24 · 498 阅读 · 0 评论 -
【sqoop】 Sqoop详细介绍包括:sqoop命令,原理,流程
一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。转载 2017-07-18 17:02:46 · 320 阅读 · 0 评论 -
【spark】spark之shuffle调优
文章目录 [hide]1 shuffle调优1.1 调优概述1.2 ShuffleManager发展概述1.3 HashShuffleManager运行原理1.3.1 未经优化的HashShuffleManager1.3.2 优化后的HashShuffleManager1.4 SortShuffleManager运行原理1.4.1转载 2017-07-31 16:08:17 · 270 阅读 · 0 评论 -
【sqoop】定时执行shell脚本,sqoop从mysql导出多张表信息到hbase
一、shell脚本#!/bin/bash#coding=UTF-8#date_year=$(date +%Y)#echo $date_yearsource /etc/profilefor((i=3;i<=8;i++));do/opt/sqoop-1.4.6/bin/sqoop import --connect jdbc:mysql://192.168.150.86:3306/a原创 2017-08-02 16:32:43 · 3421 阅读 · 2 评论 -
【spark】Spark transformation和action的算子
transformation算子map(func) 返回一个新的分布式数据集,由每个原元素经过func函数处理后的新元素组成 filter(func) 返回一个新的数据集,由经过func函数处理后返回值为true的原元素组成 flatMap(func) 类似于map,但是每一个输入元素,会被映射为0个或多个输出元素,(因此,func函数的返回值是一个seq,而不是单一元素)转载 2017-08-01 11:06:39 · 3684 阅读 · 0 评论 -
【spark】之Job调度模式
用户通过不同的线程提交的Job可以并发运行,但是受到资源的限制。Job到调度池(pool)内申请资源,调度池会根据工程的配置,决定采用哪种调度模式。FIFO模式 在默认情况下,Spark的调度器以FIFO(先进先出)方式调度Job的执行。每个Job被切分为多个Stage。第一个Job优先获取所有可用的资源,接下来第二个Job再获取剩余资源。以此类推,如果第一个Job并没转载 2017-10-17 18:28:07 · 1598 阅读 · 0 评论 -
【hive】hive介绍
我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduc转载 2017-04-11 12:00:18 · 360 阅读 · 0 评论