- 博客(5)
- 资源 (4)
- 收藏
- 关注
原创 数据开发-SQL语句优化及实用SQL案例
SELECT语句 - 语法顺序:SELECT DISTINCT <select_list>FROM <left_table><join_type> JOIN <right_table>ON <join_condition>WHERE <where_condition>GROUP BY <group_by_list>HAVING <having_condition>ORDER BY <ord
2021-07-22 15:51:40 202 2
原创 数据开发-Spark-RDD算子
Transformation算子map: 作用到集合的每一个元素filter: 过滤器(sc.filter(_.contains(“hello”))flatMap: map加压平union: 并集后返回一个新的RDDsubtract:计算差的一种函数去除两个RDD中相同的元素,不同的RDD将保留下来intersecton: 求交集后返回一个新的RDDdistinct: 去重pattitionBy: 重写分区,有可能产生shaffer过程coalesce(numPartitions):只能缩
2021-07-18 18:10:33 189 1
原创 数据开发-大数据实验手册
大数据实验手册2021-05-26 任务hdfs:shell api总结:FileSystem,IOUtils,LocalFileSystemFileSystem不能new,就使用FileSystem.get或FileSystem.newInstance,没有get就检查导包流是从FileSystem对象中的方法获取的,若类型不匹配,尝试用对象.方法的形式获取1.hdfs启动命令start-dfs.shstop-dfs.shstart-yarn.shstop-yarn.sh2.hd
2021-07-18 18:06:31 549
原创 数据开发-ETL-Kettle-pdi-ce-8.2.0.0-342
ETL工具之Kettle第1章 Kettle概述1.1 ETL简介ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。市面上常用的ETL工具有很多,比如Sqoop,DataX,Kettle,Talend等,作为一个大数据工程师,我们最好要掌握其中的两到三种,这里我们要学习的ETL工具是Kettle!1.2 Kettle简介1.2.1 Kettle
2021-07-18 18:00:27 1155
原创 数据开发-Oracle存储过程
Oracle存储过程1.执行并打印执行存储过程F9:测试Ctrl+N:单步进入2.创建游标并遍历游标进行查询3.判断语句4.循环语句5.导出json文件6.导出csv文件7.存储函数一般来讲,过程和函数的区别在于函数可以有一个返回值;而过程没有返回值。但过程和函数都可以通过out指定一个或多个输出参数,我们可以利用out参数,在过程和函数中实现返回多个值。--查询某个员工的年收入create or replace function q
2021-07-18 17:13:33 420
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人