布小昕-CSDN博客

原创 Hive面试题

hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言‘查询、汇总和分析数据。...

2019-12-16 10:59:32 4159

原创数据开发面试题2020总结

一 Hadoop面试题1.1 Hadoop基础（☆☆）1.1.1下列哪项通常是集群的最主要瓶颈（C）A.CPUB.网络C.磁盘 IOD.内存答案解析： C.磁盘 IO对集群的影响 IO作为传输数据的管道如果管道越大对数据的传输也自然够大，其保证集群数据传输的稳定。1.1.2 下列哪项可以作为集群的管理？（C）C.ClouderaManagerD.Zooke...

2019-12-11 19:58:47 4646

原创 Mysql中json格式数据查询、修改

针对Mysql存储的json格式数据进行查询、修改分享

2022-07-06 16:28:14 4862

转载 centos7.9安装mysql5.7数据库

CentOS7安装MySQL（详解)_码出高效码出未来-CSDN博客_centos7.9安装mysql

2021-12-03 16:31:29 317

原创 mysql通过一个表更新另一个表数据

更新student_test表年龄字段为空的数据：update student_test br set age= (select age from student where name = br.name) where age is null;

2021-10-25 15:04:10 3340

原创 kettle用户手册

链接: https://pan.baidu.com/s/1Sz81W9BtemdaAdCjNie3PA 提取码: 66d8

2021-09-01 14:45:39 241

原创 kettle学习大集合

链接: https://pan.baidu.com/s/1kIUkDZ-9LUHSSYxL4nYyUg提取码: gtym

2021-09-01 14:42:51 213

原创 kettle数据同步从oracle到mysql数据库

流程如图：第一步：新建转换任务选择数库连接配置第二步：新建oracle数据库连接配置，输入对应的信息，点击测试测试成功则没问题。第三步：新建mysql数据库连接，配置对应信息，点击测试测试成功则没问题。（若报错可能是你得kettle没有配置对应的mysql驱动，则你需要根据你得mysql的版本下载对应的驱动，放在kettle的jar包所在目录）第三步：选择核心对象中输入表输入。第四步：选择核心对象中输出表输出。第五步：将两个组件连接起来使节...

2021-09-01 14:37:48 2568 1

原创 kettle数据同步从文本文件抽取数据入库

流程如图：这里我中间加了一个字段选择步骤，此步骤也是在实际应用当中经常会用到的一个选项。我们先来看看文本文件输入选项的相关页面。这个跟EXCL文件输入差不多，具体要注意的地方就是第二个页面。在内容页面需要注意一下几点：分隔符、格式、编码方式。特别是在linux下面使用的时候一定要记得选择linux相对应的格式和编码方式。我推荐使用的编码方式是GB2312。分隔符则是对要跟文本文件的分隔符一致，如果不一致的话则会导致数据无法正确的读取。格式是根据你使用的操作系统来决定使用什么格式。

2021-09-01 14:16:16 654

原创 kettle数据同步从EXCL文件读取数据入库

从EXCL文件读取数据入库我们了解一下我们如何将EXCL文件导入到数据库当中。Kettle工具提供了一个选项的功能是把excl文件的数据提取出来。在使用这个选项的时候，必须EXCL文件格式是标准的表模式。（表模式—头一行是字段名，下面是数据行。）我们就来看看详细的配置：第一个页面大体就是这样一些，要注意的地方就是写文件通配符那里。这里可以写相关的正则表达式来提取你想要的特定文件以及使用变量。第二个页面就是工作表，这里面选取excl文件中你需要的工作表。...

2021-09-01 14:10:42 854

原创 kettle数据同步从FTP服务器上下载文件

从FTP服务器上下载文件这个是JOB实现的是每隔一个小时从FTP服务器上下载当前时段的一个文件。此JOB要实现的核心在于时间变量的设置，同时还需要根据你要下载的文件编写相应的正则表达式。首先我们来看变量是如何设置的：第一：获取使用获取系统信息选项，此选项在装换当中的输入文件夹下面。打开此选项我们可以看到有如下一些选择：这里根据我们的需求选择“系统日期（可变）”，这个是第一步，接下来就要使用到另一个重要的选项“javascript”。第二：javascript选项来提取.

2021-09-01 10:05:05 5299

原创 A,B两表，找到ID字段中，存在A表，但不存在B表的数据。

A,B两表，找到ID字段中，存在A表，但不存在B表的数据。A表共13w，去重后3wB表共2W，且有索引方法一：not in，易理解，效率低，时间：1.395sselect distinct A.id from A where A.id not in(select id from B)方法二：left...join...on ，B.id isnull 时间：0.739sselect A.ID from A left join B on A.ID=B.ID where B.ID..

2020-12-22 11:31:30 446

原创 sql经典练习题

表结构DROP DATABASE IF EXISTS test1;CREATE DATABASE test1;USE test1;##部门表#DROP IF EXISTS TABLE DEPT;CREATE TABLE DEPT( DEPTNO int PRIMARY KEY,##部门编号 DNAME VARCHAR(14) , ##部门名称 LOC VARCHAR(13) ##部门地址 ) ;INSERT INTO DEPT VALUES (10,'AC...

2020-12-21 15:07:07 316

原创 java 对日期获取前一天，对传入的日期跟获取本机日期进行比较返回早的日期

对传入的日期获取前一天import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;public class DataTool { // TODO: 2020/9/16 获取昨天日期 public static String getYesterday(String dataDate){ Simpl.

2020-09-16 15:00:53 346

原创将mysql查询的表数据插入到hive库

import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SparkSession;import java.util.Properties;public class MysqlTohive { // TODO: 2020/9/16 将mysql查询的表数据插入到hive库 public static void main(String[] args.

2020-09-16 13:53:55 262

原创 SparkSql将数据写入到MySQL中

通过IDEA编写SparkSql代码将person.txt文本文件写入到mysql数据库表当中去思路解析：通过sparkContext读取文件，然后转换成RDD，将RDD转换成为DataFrame，然后注册成为一张表，查询出来数据，插入保存到mysql当中去代码实现：import java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apach

2020-07-01 15:38:30 4346

原创 Sparksql连接Mysql操作Hive表数据

Spark SQL 能够使用 JDBC 从数据库读取表的数据源。当使用 JDBC 访问其它数据库时，应该首选 JdbcRDD。这是因为结果是以数据框（DataFrame）返回的，且这样 Spark SQL操作轻松或便于连接其它数据源。通过将所需数据存储在mysql数据库，利用jdbc方式连接获取表数据，从而形成sql拼接进行hive库的数据表的操作。import Spark_Sql.sessionimport org.apache.spark.SparkConfimport or..

2020-07-01 15:17:59 486

原创 spark任务提交参数配置详解

spark任务提交说明jar包提交，可以使用bin/spark-submit脚本启动应用了. 这个脚本负责设置spark使用的classpath和依赖,支持不同类型的集群管理器和发布模式:bin/spark-submit \--class <main-class>--master <master-url> \--deploy-mode <deploy-mode> \--conf <key>=<value...

2020-07-01 14:40:47 2799 1

原创 ELK安装文档

一. 安装准备系统：Centos7.2JDK：1.8Elasticsearch-6.0.0Logstash-6.0.0Kibana-6.0.0二. JDK安装因为ELK6.0.0所支持的jdk环境必须在1.8以上所以必须安装1.8以上。如果你所面临的环境jdk1.7，可以给目录单独配置jdk1.8以上环境，亲测可用。三.ELK安装ELK 其实并不是一款软件...

2019-12-16 18:51:08 529

原创 ZooKeeper面试题

zookeeper：它是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。1. 请简述ZooKeeper的选举机制假设有五台服务器组成的zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这一点上，都是一...

2019-12-12 11:36:28 394

原创数据开发（数据来源）

前言：早在1980年，著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。2008年9月《自然》杂志推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）...

2019-12-11 19:08:41 870

布小昕_775的博客