票7毒9守3验11-CSDN博客

原创 MySQL所有常用语法大全

MySQL所有常用语法大全一、常用操作数据库的命令1.show databases; 查看所有的数据库2.create database test; 创建一个叫test的数据库3.drop database test;删除一个叫test的数据库4.use test;选中库 ,在建表之前必须要选择数据库5.show tables; 在选中的数据库之中查看所有的表6.create table 表名 (字段1 类型, 字段2 类型);7.desc 表名;查看所在的表的字段8.drop tabl

2020-11-30 16:48:32 10852 1

原创 Mysql大总结

Mysql

2022-08-24 15:03:52 214

原创 Spark SQL初了解

sparksql

2022-08-24 14:55:55 517

原创 hive中，union和union all的区别

数据库简单知识

2022-08-24 14:50:02 781

原创 master数据导入练习-flume-kafka

数据数据1）任务概要2）数据导入数据库命令【查看数据文件 README 得知】3）补充：将数据库表格转到本地语句（.csv格式）1、使用sqoop导入数据到hdfs(.csv格式)2、flume导入文件至kafkaagent文件格式（范例）1）.创建agent文件（我是使用的nodeone）departments.conf、dept_emp.conf、dept_manager.conf、employees.conf、salaries.conf、titles.conf2)创建topic

2021-02-05 09:38:26 274

原创 Spark集群提交方式及zeppelin环境配置

Spark zeppelin环境配置：export JAVA_HOME=/opt/install/jdkexport SPARK_HOME=/opt/install/sparkexport HADOOP_CONF_DIR=/opt/install/hadoop/etc/hodoopzeppelin:val users=spark.read.options(Map(“inferSchema”->“true”,“delimiter”->",",“header”->“true”)).c

2021-01-20 18:51:24 522

原创 Scala高价函数

高价函数函数可以赋值给变量函数可以作为函数的参数函数可以作为函数的返回值#函数可以作为函数的返回值def methodOne():Unit={print(“method”)}def methodTwo()={methodOne}methodOne()methodTWo()##直接返回函数有问题，需要加特殊符号，_def methodOne():Unit={print(“method”)}def methodTwo()={methodOne _}methodOne()(

2021-01-11 13:50:12 134

原创 scala函数:至简原则

scala函数：至简原则#1.语法非常灵活，在任意的语法中可以声明其他语法规则。#2.方法的参数和返回值def showMessage(name:String):Unit={print(“Hello…”+name)}def max(one:Int,two:Int):Int={if (one>two) one else two}1.无参、无返回值def method():Unit={print(“hello world!”)}2.有参，无返回值def method(name:

2021-01-11 13:48:07 486

原创 MapReduce数据倾斜

1.什么是数据倾斜？简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。数据倾斜分为两种：数据频率倾斜：某一区域的数据量远远大于其他区域。数据大小倾斜：部分记录的大小远远大于平均值。2.数据倾斜原因key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜3.解决办法方法 1：抽样和范围分区可以通过对原始数据进行抽样得到的结果集来预设分区边界值。方法 2：自定义分区partition基于输出键的背景知识进行自定义分区。例

2021-01-01 10:31:17 259

原创 Hadoop高可用集群搭建

一、HDFS-HA集群配置 1.1 配置HDFS-HA集群1.官方地址：http://hadoop.apache.org/2.HDFS高可用集群规划，请先搭建好一个Hadoop完全分布式集群（可以未进行namenode格式化）和ZooKeeper完全分布式环境已经安装完成。Hadoop102 Hadoop103 Hadoop104NameNode NameNode ResourceManager ResourceManager ZKFC ZKFC DataNode DataNode Data

2020-12-28 11:34:48 220

原创 Hive环境搭建 (伪分布式)

1.1 虚拟机环境准备准备一台虚拟机，操作系统centos7.x已安装jdk、mysql、hadoop（或hadoop集群）1.2 hive cdh伪分布式安装下载地址http://archive.cloudera.com/cdh5/cdh/5/也可以安装apache版本，下载地址http://archive.apache.org/dist/hive/这里演示安装版本为hive-1.1.0(cdh版)。虽然版本有点旧，但和cdh5.14.2版本的hadoop2.6.0相对应的即为该版本，结合使用

2020-12-28 11:28:44 494

原创 Phoenix安装及与HBase的集成

一、Phoenix安装1.1 前置环境首先保证Zookeeper、Hadoop集群的正常部署，并启动。1.2 Phoenix安装部署使用的版本为phoenix-4.14.0-cdh5.14.2。下载地址http://archive.cloudera.com/cdh5/cdh/5/1.解压Phoenix到指定目录：[root@hadoop101 software]$ tar -zxf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt/instal

2020-12-24 14:44:56 443

原创 Linux系统AWK

AWKawk是一个强大的文本分析工具。相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，（空格，制表符）为默认分隔符将每行切片，切开的部分再进行各种分析处理。-Fawk ‘{pattern + action}’ {filenames}–支持自定义分隔符–支持正则表达式匹配–支持自定义变量，数组 a[1] a[tom] map(key)–支持内置变量•ARGC 命令行参数个数•ARGV 命令行参数排列•ENVIRON

2020-12-23 10:07:48 190 1

原创 hdfs高可用前期准备工作

前期准备工作把之前Hadoop的文件也就是原来的配置信息给删掉cd /varrm -rf cdh1.缺一个自动切换的组件。yum install -y psmisc另一种解决方案（没试过）2.规划nodeonenodetwonodethreenodefourNN11ZK111DN111JN111ZXFC113.配置信息修改core-site.xml信息保留日志存储其他删掉cd /opt/install/hadoop/etc/hadoop

2020-12-23 10:02:58 131

原创 Linux如何设置时间同步

date // 查看系统时间1#hwclock // 查看硬件时间1二、时间服务器上的时间同步的方法安装ntpdate工具yum -y install ntp ntpdate1设置系统时间与网络时间同步ntpdate cn.pool.ntp.org1将系统时间写入硬件时间hwclock --systohc...

2020-12-23 09:29:47 180

原创 CentOS7配置阿里yum源

1.打开虚拟机，使用XShell操作虚拟机输入指令mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup2.输入指令，从阿里镜像下载curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo`3.清除yum缓存，把服务器的包信息下载到本地电脑缓存起来，makecache建立一个缓存，以

2020-12-23 09:28:11 355

m0_51008912的博客