liunx
文章平均质量分 83
DHRJFH
这个作者很懒,什么都没留下…
展开
-
spark 性能优化与故障处理
Spark 性能调优第一章Spark 性能调优1.1常规性能调优1.1.1常规性能调优一:最优资源配置Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示:代码清单2-1 标准Spark提交脚本/usr/opt/modules/spark/bin/spark-submit –原创 2021-08-27 22:10:27 · 702 阅读 · 0 评论 -
数仓面试题
数仓面试题问题一:什么叫数据仓库?数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,它用于支持企业或者组织的决策分析处理数据仓库是为了便于多维分析和多角度展现而将数据按特定模式进行存储所建立起来的关系型数据库,他的数据基于OLTP系统。首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了充足,并包含历史数据,而且存放在数据仓库中的数据一般不再进行修改问题二:为什么需要数据仓库建模?数仓建模需要按照一定原创 2021-08-27 22:08:58 · 2784 阅读 · 0 评论 -
hive基础学习
6.1.1 全表和特定列查询1.全表查询hive (default)> select * from emp;2.选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)SQL 可以写在一行或者多行(3)关键字不能被缩写也不能分行(4)各子句一般要分行写。(5)使用缩进提高语句的可读性。6.1.2 列别名1.重命名一个列2.便于计算3.紧跟列名,也可以在列名和别名之间加入关键字‘原创 2021-08-27 21:59:53 · 431 阅读 · 0 评论 -
大数据hive
大数据技术hive第1章Hive基本概念第2章1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。mapreduce : 海量数据的分布式计算框架.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。mapreduce wordcount。jacktomjacktomjack// 编写sql语句.如何计算出每个次的数量.select name,count(*) from word grou原创 2021-08-27 21:58:16 · 310 阅读 · 0 评论 -
liunx中 mysql安装
1rpm -qa | grep mysql2 卸载已有的mysql库包rpm -e --nodeps mysql-libs-5.1.71-1.el6.x86_643用rpm方式安装mysql的server端 (man rpm 查看-ivh的具体意思)rpm -ivh ./MySQL-server-5.5.47-1.linux2.6.x86_64.rpm4用rpm方式安装mysql的client端rpm -ivh ./MySQL-client-5.5.47-1.linux2.6.x86_64.r原创 2021-01-04 08:31:37 · 103 阅读 · 0 评论 -
liunx入门
一.Linux介绍Unix:Linux: linux is not unixLinux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。Linux操作系统诞生于1991 年10 月5 日(这是第一次正式向外公布时间)。Linux存在着许多不同的Linux版本,但它们原创 2021-01-04 08:30:07 · 1420 阅读 · 0 评论