自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 MySQL所有常用语法大全

MySQL所有常用语法大全一 、常用操作数据库的命令1.show databases; 查看所有的数据库2.create database test; 创建一个叫test的数据库3.drop database test;删除一个叫test的数据库4.use test;选中库 ,在建表之前必须要选择数据库5.show tables; 在选中的数据库之中查看所有的表6.create table 表名 (字段1 类型, 字段2 类型);7.desc 表名;查看所在的表的字段8.drop tabl

2020-11-30 16:48:32 9304

原创 Mysql大总结

Mysql

2022-08-24 15:03:52 154

原创 Spark SQL初了解

sparksql

2022-08-24 14:55:55 407

原创 hive中,union和union all的区别

数据库简单知识

2022-08-24 14:50:02 684

原创 master数据导入练习-flume-kafka

数据数据1)任务概要2)数据导入数据库命令【查看数据文件 README 得知】3)补充:将数据库表格转到本地语句(.csv格式)1、使用sqoop导入数据到hdfs(.csv格式)2、flume导入文件至kafkaagent文件格式(范例)1).创建agent文件(我是使用的nodeone)departments.conf、dept_emp.conf、dept_manager.conf、employees.conf、salaries.conf、titles.conf2)创建topic

2021-02-05 09:38:26 201

原创 Spark集群提交方式及zeppelin环境配置

Spark zeppelin环境配置:export JAVA_HOME=/opt/install/jdkexport SPARK_HOME=/opt/install/sparkexport HADOOP_CONF_DIR=/opt/install/hadoop/etc/hodoopzeppelin:val users=spark.read.options(Map(“inferSchema”->“true”,“delimiter”->",",“header”->“true”)).c

2021-01-20 18:51:24 412

原创 Scala高价函数

高价函数函数可以赋值给变量函数可以作为函数的参数函数可以作为函数的返回值#函数可以作为函数的返回值def methodOne():Unit={print(“method”)}def methodTwo()={methodOne}methodOne()methodTWo()##直接返回函数有问题,需要加特殊符号,_def methodOne():Unit={print(“method”)}def methodTwo()={methodOne _}methodOne()(

2021-01-11 13:50:12 80

原创 scala函数:至简原则

scala函数:至简原则#1.语法非常灵活,在任意的语法中可以声明其他语法规则。#2.方法的参数和返回值def showMessage(name:String):Unit={print(“Hello…”+name)}def max(one:Int,two:Int):Int={if (one>two) one else two}1.无参、无返回值def method():Unit={print(“hello world!”)}2.有参,无返回值def method(name:

2021-01-11 13:48:07 384

原创 MapReduce数据倾斜

1.什么是数据倾斜?简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。数据倾斜分为两种:数据频率倾斜:某一区域的数据量远远大于其他区域。数据大小倾斜:部分记录的大小远远大于平均值。2.数据倾斜原因key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜3.解决办法方法 1:抽样和范围分区可以通过对原始数据进行抽样得到的结果集来预设分区边界值。方法 2:自定义分区partition基于输出键的背景知识进行自定义分区。例

2021-01-01 10:31:17 192

原创 Hadoop高可用集群搭建

一、HDFS-HA集群配置 1.1 配置HDFS-HA集群1.官方地址:http://hadoop.apache.org/2.HDFS高可用集群规划,请先搭建好一个Hadoop完全分布式集群(可以未进行namenode格式化)和ZooKeeper完全分布式环境已经安装完成。Hadoop102 Hadoop103 Hadoop104NameNode NameNode ResourceManager ResourceManager ZKFC ZKFC DataNode DataNode Data

2020-12-28 11:34:48 171

原创 Hive环境搭建 (伪分布式)

1.1 虚拟机环境准备准备一台虚拟机,操作系统centos7.x已安装jdk、mysql、hadoop(或hadoop集群)1.2 hive cdh伪分布式安装下载地址http://archive.cloudera.com/cdh5/cdh/5/也可以安装apache版本,下载地址http://archive.apache.org/dist/hive/这里演示安装版本为hive-1.1.0(cdh版)。虽然版本有点旧,但和cdh5.14.2版本的hadoop2.6.0相对应的即为该版本,结合使用

2020-12-28 11:28:44 353

原创 Phoenix安装及与HBase的集成

一、Phoenix安装1.1 前置环境首先保证Zookeeper、Hadoop集群的正常部署,并启动。1.2 Phoenix安装部署使用的版本为phoenix-4.14.0-cdh5.14.2。下载地址http://archive.cloudera.com/cdh5/cdh/5/1.解压Phoenix到指定目录:[root@hadoop101 software]$ tar -zxf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt/instal

2020-12-24 14:44:56 330

原创 Linux系统AWK

AWKawk是一个强大的文本分析工具。 相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。 简单来说awk就是把文件逐行的读入,(空格,制表符)为默认分隔符将每行切片,切开的部分再进行各种分析处理。-Fawk ‘{pattern + action}’ {filenames}–支持自定义分隔符–支持正则表达式匹配–支持自定义变量,数组 a[1] a[tom] map(key)–支持内置变量•ARGC 命令行参数个数•ARGV 命令行参数排列•ENVIRON

2020-12-23 10:07:48 121 1

原创 hdfs高可用前期准备工作

前期准备工作把之前Hadoop的文件 也就是原来的配置信息给删掉cd /varrm -rf cdh1.缺一个自动切换的组件。yum install -y psmisc另一种解决方案(没试过)2.规划nodeonenodetwonodethreenodefourNN11ZK111DN111JN111ZXFC113.配置信息修改core-site.xml信息保留日志存储其他删掉cd /opt/install/hadoop/etc/hadoop

2020-12-23 10:02:58 73

原创 Linux如何设置时间同步

date // 查看系统时间1#hwclock // 查看硬件时间1二、时间服务器上的时间同步的方法安装ntpdate工具yum -y install ntp ntpdate1设置系统时间与网络时间同步ntpdate cn.pool.ntp.org1将系统时间写入硬件时间hwclock --systohc...

2020-12-23 09:29:47 108

原创 CentOS7配置阿里yum源

1.打开虚拟机,使用XShell操作虚拟机输入指令mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup2.输入指令,从阿里镜像下载curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo`3.清除yum缓存,把服务器的包信息下载到本地电脑缓存起来,makecache建立一个缓存,以

2020-12-23 09:28:11 285

原创 怎么使hadoop集群更容易重置

使hadoop集群更容易重置:1.数据, NN DN SNN /var/cdh/2.日志。 $HADOOP_HOME/logs修改yarn的配置:yarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamenodetwomapred-site.xmlmapreduce.framework.nameyarn修改:hadoop-env.sh增加 HA.

2020-12-23 09:26:44 212 1

原创 ZooKeeper分布式环境搭建

1.1 分布式安装部署0.前置条件jdk已经安装完成。三台机器防火墙已经关闭。1.集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.解压安装(1)上传ZooKeeper安装包到hadoop102主机/opt/software目录下。这里还是使用CDH版本,具体包为zookeeper-3.4.5-cdh5.14.2.tar.gz。(2)解压zookeeper安装包到/opt/install/目录下[hadoop@hadoop102 so

2020-12-23 09:23:23 208

原创 linux中查看日志的几种方法

linux中查看日志的几种方法最常用查看日志方法:·实时日志:tail -f XXX.log·搜索关键字附近日志:cat -n filename | grep “关键字”查看日志常用命令tail:-n 是显示行号;相当于nl命令;例子如下:tail -100f test.log 实时监控100行日志tail -n 10 test.log 查询日志尾部最后10行的日志;tail -n +10 test.log 查询10行之后的所有日志;head:跟tail是相

2020-12-10 09:35:52 924

原创 Linux常用命令大全(非常详细!!!)

一.Linux最常用的20个命令ls: 列出目录cd:切换目录pwd:Print Working Directory,显示目前的目录mkdir:创建一个新的目录rmdir:删除一个空的目录cp: 复制文件或目录,命令 cp/usr/text.txt/tmp/text1.txt将usr目录下的text.txt复制到tmp目录下,并重命名为text1.txtrm: 移除文件或目录,命令 rm-f text.txt强制删除文件mv:移动文件与目录,或修改名称,命令 mv/tmp/test.txt/

2020-12-07 20:21:03 232

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除