Thomas_White-CSDN博客

原创数据仓库项目——业务数据生成

使用MySQL链接工具链接MySQL（我使用的是Navicat）创建一个名为gmall的数据库导入SQL脚本生成对应的表以及数据文件已分享，可自行下载链接: https://pan.baidu.com/s/1rrbM4FGChktr3wQxm8QN7g提取码: 5x8e生成业务数据在/opt/module/创建一个db_log文件夹mkdir db_log/上传gmall-mock-db-2020-03-16-SNAPSHOT.jar 和 application.propert

2020-06-23 15:02:13 608

原创数据仓库项目——数据准备

使用idea编写，模拟数据产生pom.xml  <properties> <slf4j.version>1.7.20</slf4j.version> <logback.version>1.0.7</logback.version> </properties> <dependencies> <!--

2020-05-13 09:45:30 290 1

原创数据仓库项目——集群搭建

1.虚拟机三台2.jdk环境变量jdk版本：jdk-8u144-linux-x64.tar环境变量配置/etc/profile.d/env.sh#JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_144 export PATH=$PATH:$JAVA_HOME/bin配置完需要source /etc/profile.d/env.shHadoop环境变量Hadoop版本：hadoop-2.7.2.tar环境变量配置/etc/profile.d

2020-05-10 08:38:17 428

原创 Hive练习题，持续更新！！！！

hive练习题

2022-09-16 17:24:07 907 1

原创 Hive常用操作持续更新！！！学习笔记

个人学习hive的笔记

2022-08-21 16:29:32 529

原创 SQL语法

联合union和union all连接俩个sql语句的结果union语法：如果表二中查出的数据与表一中的数据重复则去重SELECT column_name(s) FROM table1UNIONSELECT column_name(s) FROM table2;union all语法：表一与表二中的数据全连接SELECT column_name(s) FROM table1UNION ALLSELECT column_name(s) FROM table2;minusminus函数

2020-06-11 15:45:22 319

原创 INNER JOIN，LEFT JOIN，RIGHT JOIN，FULL OUTER JOIN

INNER JOIN：交集连接，取出俩个表交集的数据LEFT JOIN：左外连接，取出俩个表中左表的数据RIGHT JOIN：右外连接，取出俩个表中右表的数据FULL OUTER JOIN：全连接，取出俩个表中所有数据

2020-06-02 11:26:33 125

原创 hive

启动hiveserver2./hiveserver2beeline连接启动beeline!connect jdbc:hive2://hdp-1:10000

2020-06-01 17:32:41 129

原创虚拟机中搭建FTP服务器

1. 下载yum -y install vsftpdyum -y install ftp2. 启动FTP服务器systemctl start vsftpd.service// 查看服务器状态systemctl status vsftpd.service3.配置vsftpd.conf4.外部访问ftp://hadoop104/

2020-06-01 08:50:18 2048

原创 Yarn的执行流程

2020-05-17 16:04:02 192

原创 Flume拦截器

LogETLInterceptorpackage com.atguigu.flume.interceptor;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.nio.charset.Charset;import java.util.ArrayList;import java.util.List;.

2020-05-13 09:48:32 208

原创 Flink 数据读取api

读取数据1.创建一个实例用于数据存储case class SensorReading(id: String, timestamp: Long, temperrture: Double)1.从数组中读取数据object SourceDemo { def main(args: Array[String]): Unit = { val env: StreamExecutionEnv...

2020-02-11 17:12:33 1303

原创 Flink俩个入门实例

Flink处理数据目录结构pom文件 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</artifactId> <version...

2020-02-11 17:03:12 296

原创 Eureka注册中心搭建

Eureka注册中心搭建总目录结构#### eureka-server : Eureka服务目录结构pom依赖  <dependency> <groupId>org.springframework.boot</gr...

2019-12-26 15:11:42 220

原创 binlog

binlog基本认识Mysql的二进制日志文件查看日志文件命令mysqlbinlog --no-defaults /usr/查看mysql是否开启binlog，为OFF为未开启mysql> show variables like '%log_bin%';+---------------------------------+-------+| Variable_n...

2019-12-19 09:01:17 130

原创大数据项目

大数据实训项目数据流程图离线处理数据需求手机App log：统计一周内用户版本分布比例思路实时处理数据需求

2019-12-09 16:05:27 261

原创 Azkaban安装配置

Azkaban安装与配置1.将Azkaban压缩包上传2.解压unzip azkaban.zip3.在/root/apps/azkaban/azkaban-web-2.5.0目录下生成 keystore 的密码及相应信息keytool -keystore keystore -alias jetty -genkey -keyalg RSA4.生成时区文件tzselect...

2019-12-04 21:26:44 310

原创 Flink安装及配置

Flink安装及配置搭建单机模式1.下载Flink，要匹配自己的hadoop版本和Scala版本2.将Flink上传到虚拟机中解压tar -zxvf flink-1.7.2-bin-hadoop28-scala_2.11.tgz3.配置环境变量 vi /etc/profile#Filnk-1.7.2export FLINK_HOME=/root/apps/flink-...

2019-12-02 15:47:38 1978

原创 Linux中搭建图片服务器俩种方法

1.在Linux中搭建一个图片服务器，基于Tomcat1.需要在虚拟机中安装一个tomcat，将下载好的tomcat压缩包上传到虚拟机中加压可以开始配置tar -zxvf tomcat压缩包名字2.启动tomcat服务cd /root/apps/tomcat-9.0.24/bin启动tomcat命令 ./startup.sh关闭tomcat命令 ./shutdown.sh ...

2019-11-29 15:30:25 1747 1

原创 SCALA中简单操作符

SCALA中:: , +:, :+, :::, +++的区别List集合准备数据 var list1 = List(1,2,3) var list2 = List(4,5,6) :: 操作符：会将::前的元素做为::后的元素中的第一个元素进行储存 println(list1 :: list2) //List(List(1, 2, 3), 4, 5, 6)...

2019-11-27 08:37:47 178 1

原创 SparkStreaming

1.reduceByKey，只执行当前输入package com.zpark.stu.sparkstreamimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}obje...

2019-11-25 09:26:22 105

原创 Spark链接Hive

1.将Hadoop的conf中的core-site.xml和Hive的conf中的hive-site.xml拷贝到Spark的conf目录下2.将Mysql的驱动jar包放在Spark的jar目录中3.启动命令，在spark的bin目录下，如果你配置了环境变量那就另当别论了./spark-sql \--master spark://hdp-1:7077 \--executor-...

2019-11-20 18:42:54 171

原创 Spark API

数据源：person.loghttp://bigdata.edu360.cn/laozhaohttp://bigdata.edu360.cn/laozhaohttp://bigdata.edu360.cn/laozhaohttp://bigdata.edu360.cn/laozhaohttp://bigdata.edu360.cn/laozhaohttp://bigdata.edu...

2019-11-20 12:44:53 245

原创 SparkSql

1.编写数据源val seq = Seq(("1","xiaoming",15),("2","xiaohong",18),("3","tom",19))2.将数据转换为RDDval rdd1 = sc.parallelize(seq)3.匹配字段名val df = rdd1.toDF("id","name","age")4.查询数据df.showDSL风格...

2019-11-20 09:49:47 120

原创 spark-WordCount程序

1.启动一个spark shell./spark-shell --master spark://hdp-1:7077 --executor-memory 500m --total-executor-cores 12.启动在yarn上的spark shell./spark-shell --master yarn --deploy-mode client执行时会出现一个HADOOP_H...

2019-11-13 18:33:08 163

原创 Scala安装

1.到Scala官网下载Windows和Linux版本的压缩包2.解压文件3.配置环境变量SCALA_HOME =C:\Program Files\scala\scala-2.11.8path中添加 %SCALA_HOME%\bin便安装完成使用scala必须要有jdk8，因为scala会使用到jdk的类库...

2019-11-12 12:52:28 550

原创 spark安装及配置

1.将spark上传到虚拟机中，注意自己安装的hadoop的版本2.解压spark到apps中tar -zxvfspark-2.4.4-bin-hadoop2.7.tgz3.修改配置文件cd apps/spark-2.4.4-bin-hadoop2.7/conf将spark-env.sh.template和slaves.template进行重命名mvspark-env....

2019-11-11 13:25:03 321

原创 Elasticsearch 熟悉api

//查看/search/article下的数据 "title": "Test1"GET /search/article/_search{ "query": { "match": { "title": "Test1" } }}//写入数据PUT /megacorp/employee/1{ "first_name" : "John", "la...

2019-11-04 16:29:23 125

原创 Elasticsearch安装

1.将elasticsearch压缩包上传到虚拟机中/root/apps目录下2.解压tar -xvf elasticsearch压缩包名3.到/root/apps/elasticsearch-6.3.1/bin目录下执行./elasticsearchelasticsearch不能在root用户下启动，如果你是root用户需要创建新用户1.创建用户：useradd 你的用户名2.添加密码...

2019-11-04 13:25:52 106

原创关于springboot项目出现的错误收集

1.HTML页面可以访问，当加入thymeleaf时便会无法访问解决：pom文件缺少依赖在build中加入 <resources> <resource> <directory>sre/main/resources</directory> &lt...

2019-10-30 16:46:01 162

原创 kafka+storm+redis项目

1.拓扑package com.zpark.stu.storm;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.StormSubmitter;import org.apache.storm.generated.AlreadyAliveExcepti...

2019-10-29 18:11:36 352 1

原创 hadoop本机环境搭建

1.将hadoop减压2.配置环境变量HADOOP_HOME =E:\jdk\hadoop-2.8.1%HADOOP_HOME%\bin%HADOOP_HOME%\sbin3.将hadoop.dllwinutils.exe 放在hadoop下的bin目录下可以在GitHub中下载4.重启eclipse或者idea中...

2019-10-29 15:51:17 94

原创 IDEA编写Storm WordCount程序

1.注入的依赖<dependencies> <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-core</artifactId> <versio...

2019-10-25 10:08:02 612

原创 redis安装配置

1.将redis压缩包上传到 /root/apps/ 下2.解压redistar -zxvf redis-4.0.10.tar.gz3.进入redis-4.0.10cd /apps/redis-4.0.10执行makemake install配置 apps/redis-4.0.10/redis.confwen文件cd /root/apps/redis-4...

2019-10-25 09:55:21 118

原创 strom安装

1.将storm的压缩包上传到linux中的apps下2.减压 str -zxvfapache-storm-1.2.2.tar.gz3.配置storm的环境变量#storm-1.2.2export STORM_HOME=/root/apps/apache-storm-1.2.2export PATH=STORM_HOME/bin4.配置storm的conf文件夹中的sto...

2019-10-23 13:07:27 175

原创大数据项目一

具体流程1.Nginx产生格式化的日志信息，修改 /usr/local/nginx/conf/nginx.confw文件log_format main '$remote_addr,$remote_user,$time_local';//日志产生的格式access_log logs/log.frame.access.log main;//产生日志存放的位置Ngin...

2019-10-23 09:51:08 220 2

原创部分mysql安装

/etc/init.d/mysql start修改默认密码use mysql;update user set password=password("root") where user="root";flush privileges;授权use mysql;grant all privileges on *.* to root@'%' identified by "root";f...

2019-10-18 15:49:55 105

原创 Nginx生成日志文件 Flume采集日志文件 kafka存储日志文件上传到hdfs上的hive中

1.启动HDFS集群 start-all.sh2.启动Zookeeper 脚本启动 sh zkmanager.sh start3.启动Nginx cd /usr/local/nginx/sbin/ 执行 ./nginx/usr/local/nginx/conf采集的日志文件格式为log_format main '$rem...

2019-10-14 19:08:06 485

原创 KAFKA topic生成消费

启动zookeeper启动kafka，启动kafka时要启动zookeeper集群上所有的kafka，否则会出现找不到leader的错误./kafka-server-start.sh ../config/server.properties &进入kafka的bin目录下1.创建一个topic./kafka-topics.sh --zookeeper hdp-1:2181...

2019-10-14 11:26:37 339

原创 flume下沉Nginx产生的日志文件到hdfs上

1.将工程打成jar包放到hdp-4虚拟机上2，配置flume 在/etc/profile中配置frame在/apps/flume-1.6.0/conf 下vi frame.logger.properties 在里边写配置信息# Name the components on this agenta1.sources = r1a1.sinks = k1a1....

2019-10-11 10:31:02 164

SQL脚本文件 gmall2020-03-16.sql

空空如也