Spark简介和三种部署方式 开源集群计算系统,致力于更快的处理数据是专为大规模数据处理而设计的快速通用的计算引擎Spark 可以完成各种运算,包括 SQL 查询、文本处理、机器学习等Spark由Scala语言开发,能够和Scala紧密结合。
Scala 容器 不可变List(1)List默认为不可变集合(2)创建一个List(数据有顺序,可重复)(3)遍历List(4)List增加数据(5)集合间合并:将一个整体拆成一个一个的个体,称为扁平化(6)取指定数据(7)空集合Nil部分常用操作。
Scala基本语法 Scala注释使用和Java完全一样。注释是一个程序员必须要具有的良好编程习惯。将自己的思想通过注释先整理出来,再用代码去体现。基本语法单行注释://多行注释:/* */文档注释: /** * */
Hbase概述 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式NoSQL数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务 主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库) 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。
hive练习题 解决方案:拿2018-6-1与每次除出来的整数*7相加,得到每组的开始时间,结束时间是开始时间+6,然后使用字符串拼接的方法将开始时间与结束时间进行拼接,得到分组日期。2、我们主要的实现思路是如何将7天分成一组,只要7天分成了一组,就可以根据组进行group by,首先我们可以将每个日期与2018-06-01号相减,得到天数。英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO。字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号。
HIVE安装 shell交互Hive,用命令hive启动一个hive的shell命令行,在命令行中输入sql或者命令来和Hive交互。,其他机器可以通过客户端通过协议连接到服务器,来完成访问操作,这是生产环境用法最多的。修改hadoop的core-site.xml配置文件,改完重启hadoop即可。在安装hive之前要保证hadoop,mysql,jdk安装完毕。首先准备安装包和驱动,并将二者通过xftp传入到linux中。或者将sql语句写入文件夹,用 hive -f执行。但在使用第二种交互方式之前,需要先进行配置。
HA(高可用hadoop集群)与安装 9、执行同步 没有格式化的NN上执行 在另外一个namenode上面执行 这里选择node1。5、删除hadoop数据存储目录下的文件 每个节点都需要删除。8、格式化 在一台NN上执行,这里选择master。一定要先 把zk集群正常 启动起来。6、启动zookeeper 三台都需要启动。10、格式化ZK 在master上面执行。11、启动hdfs集群,在master上执行。7、启动JN 存储hdfs元数据。3、免密钥 (远程执行命令)4、修改hadoop配置文件。先删除所有的tmp文件。