自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 oracle里面的dblink是什么?

oracle 中的 dblink 是 Database Link的全称。它是定义一个数据库到另一个数据库的路径的对象,database link允许你查询远程表和执行远程程序。dblink(Database Link)就像电话线一样,是一个通道,如果要访问另外一个数据库表中的数据时,本地数据库中就必须要创建远程数据库的dblink,通过dblink本地数据库可以像访问本地数据库一样访问远程数据库表中的数据。如何使用呢?就像在east_web数据库里写sql想访问east_buff数据库中存在的表,报错

2021-09-22 15:18:45 1265

原创 如何使用 datax 将 mysql 中的数据拉取到 hive ?

需求使用datax将mysql中的数据拉取到hive的ods层步骤首先在mysql中确定好需要拉取的表user_extend,然后对应在hive中创建好空表,等待拉取这里对应创建的hive表格如下CREATE TABLE snbap_ods.ods_user_extend ( user_id bigint , user_gender bigint , is_pregnant_woman tinyint , is_have_children tinyint , is

2021-07-09 14:29:31 1711

原创 在使用sqoop拉取mysql的数据到hive中的ods层时,报错ERROR manager.SqlManager,怎么解决?

问题详情1.在用sqoop拉取mysql数据到hdfs上映射到hive的ods层的时候,报错数据库权限问题。2.拉取数据的代码展示sqoop job --delete ods_user05 sqoop job --create ods_user05 \-- import \--connect jdbc:mysql://192.168.1.54:3306/snbap_ods \--driver com.mysql.jdbc.Driver \--username root \--passwor

2021-07-09 13:44:31 556

原创 如何使用 datax 将 gbase 中的数据拉取到 oracle 中?

需求将 gbase 中的数据拉取到 oracle 中步骤1.在gbase中创建需要拉取的表并插入数据[root@hadoop7 install]# cd /opt/install/GBaseInstall/[root@hadoop7 GBaseInstall]# su - gbaseLast login: Thu Jul 8 10:28:31 CST 2021 on pts/0[gbase@hadoop7 ~]$ cd /home/gbase/GBase/server/bin[gbase@

2021-07-08 19:28:44 633

原创 如何使用 datax 将 oracle 中的数据拉取到 gbase 中?

需求将 oracle 中的数据拉取到 gbase 中步骤在oracle中选择要拉取的表,与此同时在gbase中创建对应的空表,等待拉取数据[root@hadoop7 install]# cd /opt/install/GBaseInstall/[root@hadoop7 GBaseInstall]# su - gbaseLast login: Thu Jul 8 10:28:31 CST 2021 on pts/0[gbase@hadoop7 ~]$ cd /home/gbase/GBase

2021-07-08 18:52:41 666

原创 如何使用 datax 拉取 hive 中的数据到 oracle 中?

需求将 hive 中的数据拉取到 oracle 中,使用的工具是 datax步骤1.先在 hive 中找一张需要拉取的表,然后在 oracle 中创建对应的空表,等待拉取数据2.在 datax 的 bin 目录下 编写 json 脚本 vi hiveoracle.json{ "job": { "setting": { "speed": { "byte": 1048576 }, "errorLimit

2021-07-08 17:12:56 1356 1

原创 如何使用 datax 拉取 oracle 中的数据到 hive 中?

需求 将oracle中的表拉取到hive中步骤 先在oracle中的某一个库中里创建一张表(我这里的库是TEXT)create table stu(id number(5),name VARCHAR2(20),grade NUMBER(5),score NUMBER(5))INSERT INTO STU VALUES(1,'李四',8,100);INSERT INTO STU VALUES(2,'多多',9,115);INSERT INTO STU VALUES(3,'熊安安',7,9

2021-07-08 16:46:58 1530 1

转载 报错Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file ....

问题描述在用 sqoop 拉取 mysql 中的数据到 hive 的 ods 层的时候,报错以下内容原因在于在hive中创建表格的时候,格式是ORC,而在导入数据的时候,文本文件却非ORC格式的。ORC格式是列式存储的表,不能直接从本地文件导入数据,只有当数据源表也是ORC格式存储时,才可以直接加载,否则会出现上述报错。解决方案1.将ORC格式的表删除换成textfile存储格式的表即可。2.先创建一个以textfile格式的临时表先将源文件数据加载到该表,然后再从textfile表中i

2021-07-06 10:59:12 1764 1

原创 如何使用kettle对日期进行数据清洗,以达到统一规范格式?

需求说明:Kettle对日期字段进行清洗转换,将不同日期格式的数据转换为标准格式YYYY-MM-DD,其他非标准的日期格式包括YYYY/MM/DD、YYYY/MM、YYYY年MM月、YYYY-MM、YYYYMM、YYYY年MM月DD日、DD-MM月-YYYY。解决步骤:1 在本地oracle中创建表以及插入相关数据Create table date_check(tdate varchar2(20),date_check varchar2(20));Truncate table date_che

2021-07-05 09:52:20 4419 1

原创 如何使用kettle生成100个随机数(0,100),计算小于等于50的随机数个数以及大于50的随机数个数,将计算结果Excel输出,格式为一行两列

需求说明使用 kettle 生成1OO个随机数,随机数取值于(0,100)之间,计算小于等于50的随机数个数和大于50的随机数个数。并把这两个统计数字放在数据库表的一行的两列中,即输出的结果有一行,一行包括两列,每列是一个统计值,输出Excel文档。流程图:备注:流程图中箭头的生成可以是在左边栏选择的时候直接双击后会自动建立与上一个方块的联系,或者也可以直接从左边栏将选择的拉取到右边,然后找到需要连接的箭头的始发点,按住Shift键拉到刚刚所选择的方块,即可生成箭头。具体的操作步骤:<1

2021-06-29 19:13:10 4244

转载 Spark中reduceByKey(_+_)的说明

Spark中reduceByKey(+)的说明比如我的内存中存在如下的以key-value形式的数据集(RDD):hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 … …reduceByKey的作用对象是(key, value)形式的RDD,而reduce有减少、压缩之意,reduceByKey的作用就是对相同key的数据进行处理,最终每个k

2021-06-28 19:37:22 174

原创 如何使用idea进行spark编程,访问hive?

准备工作:(1)需要将 hive-site.xml 放到 resources 目录下示意图演示将 hive-site.xml 下载到桌面,然后将其拉进idea里面的 resources 目录下(2)修改 hive-site.xml 文件,把 localhost 修改成ip地址或者是机器域名示意图演示(3)本机 hosts 文件中配置 ip 域名映射(4)添加依赖示意图演示以上步骤全部都准备完成后,开始编写spark代码package day0628import org.apa

2021-06-28 17:16:30 413

原创 spark 读取 hive 数据

准备工作:将hive进程起来nohup hive --service metastore &nohup hive --service hiveserver2 &beeline -u jdbc:hive2://localhost:10000找到要读取的数据 即在数据库名为 lianxi 表名为 stu 的数据开始操作:首先 需要将 hive-site.xml 拷贝到 spark/conf 目录下具体代码[root@hadoop7 conf]# cp /opt/install

2021-06-28 16:53:51 615

原创 spark 写 parquet 文件到 hdfs 上、以及到本地

spark 写 parquet 文件到本地package SQLimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo7_2 extends App { val spark: SparkSession = SparkSession.builder().master("local[4]") .appName("demo1").getOrCreate

2021-06-28 16:21:22 1679

原创 打包spark应用程序,提交到集群运行的相关代码

以WordCount程序为例进行说明首先 在idea中编写好WordCount的代码package day0628import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount extends App {// if(args.length <1){// println("参数必须传递 local yarn")// System.exit(-

2021-06-28 13:52:11 297

原创 用 beeline -u jdbc:hive2://localhost:10000 连接hive 时候,其中数据库的表格里有中文的话会乱码(即是?),怎么解决这一问题?

首先需要找到hive-env.sh其次vi hive-env.sh文件,进去之后在最后加上以下编码格式:export HADOOP_OPTS="$HADOOP_OPTS -Dfile.encoding=UTF-8"最后重新启动hive 再连接测试即可beeline -u jdbc:hive2://localhost:10000发现再次查询表的时候就会出现中文了:...

2021-06-27 11:00:21 1140

原创 Spark(jdbc)连接mysql,读取里面的表并进行查询

第一步:需要到下面的网站里去找依赖https://mvnrepository.com/找到自己mysql对应的版本 (sql查看版本命令:select @@version)我的是8.0.24版,所以我需要使用8.0.24依赖<!-- https://mvnrepository.com/artifact/mysql/mysql-connector-java --><dependency> <groupId>mysql</groupId>

2021-06-25 10:20:31 927

原创 用SparkContext(简称sc)去加载csv文件,如何去掉头部信息?

//sc方式 //首先要读取这个文件 private val rdd: RDD[String] = sc.textFile("file:///D:\\workspace\\b07sparkdemo\\data\\users.csv") private val rdd2: RDD[String] = rdd.mapPartitionsWithIndex((index, iter) => { if (index == 0) iter.drop(1) else iter }) r

2021-06-23 17:48:25 823

原创 yarn的工作流程

yarn的工作流程流程描述:1 作业提交(1)client 调用 job.waitForCompletion方法,向整个集群提交MapReduce作业.(2)client 向 ResourceManager 申请一个作业id.(3)ResourceManager 给client返回该job资源的提交路径(HDFS路径)和作业id ,每一个作业都有一个唯一的id.(4)client 发送jar包 、切片信息和配置文件到指定的资源提交路径.(5)client提交完资源后,向ResourceMan

2021-06-22 17:59:10 1395

转载 启动IDEA ERROR: ERROR COMPILING THE SBT COMPONENT ‘COMPILER-INTERFACE-2.11.2-55.0‘

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-06-22 17:19:53 683

原创 在IDEA中创建hbase表的时候,报错java.lang.reflect.InvocationTargetException

前景提示在idea中创建hbase表准备工作:1.需要在pom.xml上添加以下内容<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <encoding>UTF-8</encoding>

2021-06-04 19:26:08 1067

原创 WordCount过程实现的两种方式

第一种 MapReduce实现WordCount过程思路示意图先写Mapperpackage cnkgcmr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;//import parquet.column.values.d

2021-05-31 18:11:20 820

原创 SQL语句的练习题(二)

本篇博客的内容是SQL语句的练习题(一) 的续篇!3、门店分析1).按客流量找出最受欢迎的门店2).按客户消费额找出最受欢迎的门店3).按交易频次找出最受欢迎的门店4).按客流量找出每个门店最受欢迎的商品5).统计每个门店客流量与雇员的比率6).按年度-月份统计每家门店的收益7).找出每家门店最繁忙的时刻-- 3.1 按客流量找出最受欢迎的门店select ts.store_id, ss.store_name, count(distinct customer_id) as to

2021-05-21 15:59:22 300 3

原创 SQL语句的练习题(一)

前景准备 —数据准备 、需求说明第一大题 需求: 实现行转列– 创建学生信息表,完成学生信息分析– 创建表CREATE TABLE students_score(cname VARCHAR(10),cource VARCHAR(10),score INT) ENGINE=INNODB;– 插入数据INSERT INTO students_score VALUES(‘张三’,‘语文’,74);INSERT INTO students_score VALUES(‘张三’,‘数学’,83);

2021-05-21 13:21:17 641 2

原创 后台运行Shell脚本

使用&进行后台运行演示编写一个shell脚本,每5s打印一次系统时间让该程序后台运行,并存储运行输出到指定文件nohup bash print_date.sh > out.file 2>&1 &代码如下所示:[root@localhost ~]# cd shell_test1 [root@localhost shell_test1]# touch cc.sh [root@localhost shell_test1]# vim cc.sh进入脚本编辑内

2021-04-21 16:22:34 1291

原创 Java多线程(二)

相关例题1.模拟多人爬山需求说明:每一个线程代表一个人可设置每人爬山的速度每爬完100米显示信息爬到终点时候给出相应提示.运行结果:代码如下:public class ClimbThread extends Thread { //爬100米的时长 private int time; // 爬了多少100米 private int num; public ClimbThread(String name, int time, int kilometer) { //kilomete

2021-04-09 16:50:35 311

原创 Java 多线程(一)

1.线程、进程、多线程进程: 是指应用程序的执行实例 ,并且都有独立的内存空间和系统资源.线程: CPU调度和分派的基本单位 、执行运算的最小单位,可完成一个独立的顺序控制流程.区别进程和线程:比如百度网盘,是一个程序,打开它,对应的是进程.网盘里下载的每一项任务对应的是线程.多线程:如果在一个线程中同时运行了多个线程,用来完成不同的工作,则称之为“多线程”. 需要注意的是!多个线程是交替占用CPU资源,而不是真正的并行执行.使用多线程好处:充分利用CPU的资源,提升代码性能 、简化编程模型,更

2021-04-09 15:27:44 70

原创 遍历Map集合的三种方法

遍历Map集合的三种方法方法1:通过迭代器Iterator实现遍历方法2:增强型for循环方法3:键值对例题需求说明:学员应聘到外企工作,每个学员都会有一个英文名称,对应该学员对象。请实现通过英文名称,获得该学员对象的详细信息。学员属性包括姓名以及性别 (通过泛型解决该问题)代码如下:package Students;public class Students { private String name; private char sex; public void setName(

2021-03-26 15:59:48 304

原创 Java向上转型与向下转型知识点整理

本篇博客的由来是自己对于java多态里的向上转型与向下转型概念及用法不明了,所以查询资料整理如下所示,参照了许多大神的写法,终有所掌握。概念Java中的继承机制使得一个类可以继承另一个类,继承的类称为子类,被继承的类称为父类。向上转型:父类的引用指向子类对象,自动进行类型转换。换言之,子类对象转为父类,其中父类可以是接口。公式: <父类型> <引用变量名> = new <子类型>();即 Father f = new Son();Father是父类或接口,So

2021-03-25 17:56:35 127

原创 px,em,rem区别是什么?各自的使用场景是什么?

px em rem 区别及各自的使用场景1.pxpx是相对长度单位,像素px是相对于显示器屏幕分辨率而言的.px的特点:(1)IE不能调整以px为单位的元素或字体大小;(2)国外的大部分网站能够调整的原因在于其使用了em或rem作为字体单位;(3)Firefox能够调整px和em,rem,但是96%以上的中国网民使用IE浏览器(或内核)2.emem是相对长度单位. 相对于当前对象内文本的字体尺寸. 相对于父级元素的字体需要注意的是:em不是固定的 、em会继承父级元素的字体大小.任意

2021-03-01 17:12:58 1032

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除