乔诺『布菲』-CSDN博客

原创 oracle里面的dblink是什么？

oracle 中的 dblink 是 Database Link的全称。它是定义一个数据库到另一个数据库的路径的对象，database link允许你查询远程表和执行远程程序。dblink(Database Link)就像电话线一样，是一个通道，如果要访问另外一个数据库表中的数据时，本地数据库中就必须要创建远程数据库的dblink，通过dblink本地数据库可以像访问本地数据库一样访问远程数据库表中的数据。如何使用呢？就像在east_web数据库里写sql想访问east_buff数据库中存在的表，报错

2021-09-22 15:18:45 1531

原创如何使用 datax 将 mysql 中的数据拉取到 hive ？

需求使用datax将mysql中的数据拉取到hive的ods层步骤首先在mysql中确定好需要拉取的表user_extend，然后对应在hive中创建好空表，等待拉取这里对应创建的hive表格如下CREATE TABLE snbap_ods.ods_user_extend ( user_id bigint , user_gender bigint , is_pregnant_woman tinyint , is_have_children tinyint , is

2021-07-09 14:29:31 1816

原创在使用sqoop拉取mysql的数据到hive中的ods层时，报错ERROR manager.SqlManager，怎么解决？

问题详情1.在用sqoop拉取mysql数据到hdfs上映射到hive的ods层的时候，报错数据库权限问题。2.拉取数据的代码展示sqoop job --delete ods_user05 sqoop job --create ods_user05 \-- import \--connect jdbc:mysql://192.168.1.54:3306/snbap_ods \--driver com.mysql.jdbc.Driver \--username root \--passwor

2021-07-09 13:44:31 616

原创如何使用 datax 将 gbase 中的数据拉取到 oracle 中？

需求将 gbase 中的数据拉取到 oracle 中步骤1.在gbase中创建需要拉取的表并插入数据[root@hadoop7 install]# cd /opt/install/GBaseInstall/[root@hadoop7 GBaseInstall]# su - gbaseLast login: Thu Jul 8 10:28:31 CST 2021 on pts/0[gbase@hadoop7 ~]$ cd /home/gbase/GBase/server/bin[gbase@

2021-07-08 19:28:44 774

原创如何使用 datax 将 oracle 中的数据拉取到 gbase 中？

需求将 oracle 中的数据拉取到 gbase 中步骤在oracle中选择要拉取的表，与此同时在gbase中创建对应的空表，等待拉取数据[root@hadoop7 install]# cd /opt/install/GBaseInstall/[root@hadoop7 GBaseInstall]# su - gbaseLast login: Thu Jul 8 10:28:31 CST 2021 on pts/0[gbase@hadoop7 ~]$ cd /home/gbase/GBase

2021-07-08 18:52:41 862

原创如何使用 datax 拉取 hive 中的数据到 oracle 中？

需求将 hive 中的数据拉取到 oracle 中，使用的工具是 datax步骤1.先在 hive 中找一张需要拉取的表，然后在 oracle 中创建对应的空表，等待拉取数据2.在 datax 的 bin 目录下编写 json 脚本 vi hiveoracle.json{ "job": { "setting": { "speed": { "byte": 1048576 }, "errorLimit

2021-07-08 17:12:56 1558 1

原创如何使用 datax 拉取 oracle 中的数据到 hive 中？

需求将oracle中的表拉取到hive中步骤先在oracle中的某一个库中里创建一张表（我这里的库是TEXT）create table stu(id number(5),name VARCHAR2(20),grade NUMBER(5),score NUMBER(5))INSERT INTO STU VALUES(1,'李四',8,100);INSERT INTO STU VALUES(2,'多多',9,115);INSERT INTO STU VALUES(3,'熊安安',7,9

2021-07-08 16:46:58 1849 1

转载报错Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file ....

问题描述在用 sqoop 拉取 mysql 中的数据到 hive 的 ods 层的时候，报错以下内容原因在于在hive中创建表格的时候,格式是ORC，而在导入数据的时候,文本文件却非ORC格式的。ORC格式是列式存储的表，不能直接从本地文件导入数据，只有当数据源表也是ORC格式存储时，才可以直接加载，否则会出现上述报错。解决方案1.将ORC格式的表删除换成textfile存储格式的表即可。2.先创建一个以textfile格式的临时表先将源文件数据加载到该表，然后再从textfile表中i

2021-07-06 10:59:12 1937 1

原创如何使用kettle对日期进行数据清洗，以达到统一规范格式？

需求说明：Kettle对日期字段进行清洗转换，将不同日期格式的数据转换为标准格式YYYY-MM-DD，其他非标准的日期格式包括YYYY/MM/DD、YYYY/MM、YYYY年MM月、YYYY-MM、YYYYMM、YYYY年MM月DD日、DD-MM月-YYYY。解决步骤：1 在本地oracle中创建表以及插入相关数据Create table date_check(tdate varchar2(20),date_check varchar2(20));Truncate table date_che

2021-07-05 09:52:20 5099 1

原创如何使用kettle生成100个随机数（0,100），计算小于等于50的随机数个数以及大于50的随机数个数，将计算结果Excel输出，格式为一行两列

需求说明使用 kettle 生成1OO个随机数，随机数取值于（0,100）之间，计算小于等于50的随机数个数和大于50的随机数个数。并把这两个统计数字放在数据库表的一行的两列中，即输出的结果有一行，一行包括两列，每列是一个统计值，输出Excel文档。流程图：备注：流程图中箭头的生成可以是在左边栏选择的时候直接双击后会自动建立与上一个方块的联系，或者也可以直接从左边栏将选择的拉取到右边，然后找到需要连接的箭头的始发点，按住Shift键拉到刚刚所选择的方块，即可生成箭头。具体的操作步骤：<1

2021-06-29 19:13:10 4803

转载 Spark中reduceByKey(_+_)的说明

Spark中reduceByKey(+)的说明比如我的内存中存在如下的以key-value形式的数据集（RDD）：hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 … …reduceByKey的作用对象是(key, value)形式的RDD，而reduce有减少、压缩之意，reduceByKey的作用就是对相同key的数据进行处理，最终每个k

2021-06-28 19:37:22 219

原创如何使用idea进行spark编程，访问hive？

准备工作：(1)需要将 hive-site.xml 放到 resources 目录下示意图演示将 hive-site.xml 下载到桌面，然后将其拉进idea里面的 resources 目录下(2)修改 hive-site.xml 文件，把 localhost 修改成ip地址或者是机器域名示意图演示(3)本机 hosts 文件中配置 ip 域名映射(4)添加依赖示意图演示以上步骤全部都准备完成后，开始编写spark代码package day0628import org.apa

2021-06-28 17:16:30 491

原创 spark 读取 hive 数据

准备工作：将hive进程起来nohup hive --service metastore &nohup hive --service hiveserver2 &beeline -u jdbc:hive2://localhost:10000找到要读取的数据即在数据库名为 lianxi 表名为 stu 的数据开始操作：首先需要将 hive-site.xml 拷贝到 spark/conf 目录下具体代码[root@hadoop7 conf]# cp /opt/install

2021-06-28 16:53:51 693

原创 spark 写 parquet 文件到 hdfs 上、以及到本地

spark 写 parquet 文件到本地package SQLimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo7_2 extends App { val spark: SparkSession = SparkSession.builder().master("local[4]") .appName("demo1").getOrCreate

2021-06-28 16:21:22 1835

原创打包spark应用程序，提交到集群运行的相关代码

以WordCount程序为例进行说明首先在idea中编写好WordCount的代码package day0628import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount extends App {// if(args.length <1){// println("参数必须传递 local yarn")// System.exit(-

2021-06-28 13:52:11 357

原创用 beeline -u jdbc:hive2://localhost:10000 连接hive 时候，其中数据库的表格里有中文的话会乱码(即是?)，怎么解决这一问题？

首先需要找到hive-env.sh其次vi hive-env.sh文件，进去之后在最后加上以下编码格式:export HADOOP_OPTS="$HADOOP_OPTS -Dfile.encoding=UTF-8"最后重新启动hive 再连接测试即可beeline -u jdbc:hive2://localhost:10000发现再次查询表的时候就会出现中文了：...

2021-06-27 11:00:21 1301

原创 Spark(jdbc)连接mysql，读取里面的表并进行查询

第一步：需要到下面的网站里去找依赖https://mvnrepository.com/找到自己mysql对应的版本（sql查看版本命令：select @@version）我的是8.0.24版，所以我需要使用8.0.24依赖<dependency> <groupId>mysql</groupId>

2021-06-25 10:20:31 993

原创用SparkContext(简称sc)去加载csv文件，如何去掉头部信息？

//sc方式 //首先要读取这个文件 private val rdd: RDD[String] = sc.textFile("file:///D:\\workspace\\b07sparkdemo\\data\\users.csv") private val rdd2: RDD[String] = rdd.mapPartitionsWithIndex((index, iter) => { if (index == 0) iter.drop(1) else iter }) r

2021-06-23 17:48:25 912

原创 yarn的工作流程

yarn的工作流程流程描述：1 作业提交（1）client 调用 job.waitForCompletion方法，向整个集群提交MapReduce作业.（2）client 向 ResourceManager 申请一个作业id.（3）ResourceManager 给client返回该job资源的提交路径（HDFS路径）和作业id ,每一个作业都有一个唯一的id.（4）client 发送jar包、切片信息和配置文件到指定的资源提交路径.（5）client提交完资源后，向ResourceMan

2021-06-22 17:59:10 1489

转载启动IDEA ERROR: ERROR COMPILING THE SBT COMPONENT ‘COMPILER-INTERFACE-2.11.2-55.0‘

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-06-22 17:19:53 744

qq_43368947的博客

原创 oracle里面的dblink是什么？

原创如何使用 datax 将 mysql 中的数据拉取到 hive ？

原创在使用sqoop拉取mysql的数据到hive中的ods层时，报错ERROR manager.SqlManager，怎么解决？

原创如何使用 datax 将 gbase 中的数据拉取到 oracle 中？

原创如何使用 datax 将 oracle 中的数据拉取到 gbase 中？

原创如何使用 datax 拉取 hive 中的数据到 oracle 中？

原创如何使用 datax 拉取 oracle 中的数据到 hive 中？

转载报错Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file ....

原创如何使用kettle对日期进行数据清洗，以达到统一规范格式？

原创如何使用kettle生成100个随机数（0,100），计算小于等于50的随机数个数以及大于50的随机数个数，将计算结果Excel输出，格式为一行两列

转载 Spark中reduceByKey(_+_)的说明

原创如何使用idea进行spark编程，访问hive？

原创 spark 读取 hive 数据

原创 spark 写 parquet 文件到 hdfs 上、以及到本地

原创打包spark应用程序，提交到集群运行的相关代码

原创用 beeline -u jdbc:hive2://localhost:10000 连接hive 时候，其中数据库的表格里有中文的话会乱码(即是?)，怎么解决这一问题？

原创 Spark(jdbc)连接mysql，读取里面的表并进行查询

原创用SparkContext(简称sc)去加载csv文件，如何去掉头部信息？

原创 yarn的工作流程

转载启动IDEA ERROR: ERROR COMPILING THE SBT COMPONENT ‘COMPILER-INTERFACE-2.11.2-55.0‘

原创在IDEA中创建hbase表的时候，报错java.lang.reflect.InvocationTargetException

原创 WordCount过程实现的两种方式

原创 SQL语句的练习题（二）

原创 SQL语句的练习题（一）

原创后台运行Shell脚本

原创 Java多线程（二）

原创 Java 多线程（一）

原创遍历Map集合的三种方法

原创 Java向上转型与向下转型知识点整理

原创 px，em，rem区别是什么？各自的使用场景是什么？

空空如也

空空如也